本文来自微信公众号:新智元 (ID:AI_era),编辑:Aeneas、润,原文标题:《史上最大图灵测试实验完成!150万人类参与1000万次对话,判断对面是人还是AI》,题图来自:视觉中国
历史上规模最大的图灵测试,已经初步有结果了!
(资料图)
今年4月中旬,AI 21实验室推出了一个好玩的社交图灵游戏——“人类还是机器人?”
游戏一推出,广大网友就玩疯了。
现在,全球已经有150多万名参与者,在这个游戏中进行了超过1000万次对话,还纷纷在Reddit和Twitter上po出自己的经验和策略。
小编当然也按捺不住好奇心,尝试了一把。
交谈了两分钟,游戏就要求我去猜,背后和我聊天到底是人还是AI。
所以,游戏中跟我谈话的是谁?
某些是真人,另外一些,当然就是基于目前最领先的大语言模型的AI机器人,比如Jurassic-2和GPT-4。
现在,作为研究的一部分,AI21 Labs决定把这个图灵测试结果的实验向公众公布。
实验结果
分析了前两百万次对话和猜测之后,可以从实验中得出以下结论——
猜测对面是人还是AI时,有68%的人猜对了。
对人类来说,识别自己的人类同胞更容易。与人类交谈时,被试猜对的准确率有73%。与AI交谈时,被试猜对的准确率有60%。
法国网友猜测的正确率最高,为71.3%(远高于68%的一般平均水平),而印度网友的正确率最低,为63.5%。
男性和女性猜测的正确率差不多,总的来说女性的正确率要略高一些。
比起年龄较大的被试,更年轻的被试猜测的正确率会更高。
判断是人还是AI,他们用这些方法
除此之外,团队找到了被试经常用的一些方法,来区分他们是和人还是和AI交谈。
一般人的判断依据,是使用ChatGPT以及类似界面的语言模型时感知的受限程度,以及自己对于人类在线行为的看法。
1. AI不会打错别字、犯语法错误或使用俚语
一般人都倾向认为,人类才会犯拼写和语法错误,以及使用俚语。
因此,当他们发现对方信息中的这类错误时,许多人的第一感受就是自己在和人类同胞交谈。
但其实,游戏中的大部分模型都受过训练,也会犯这种错误,以及使用俚语。
2. 个人问题是检验AI的办法,但不总是有用
游戏的参与者们经常问一些个人问题,比如“你来自哪里?”“你在做什么?”或“你叫什么名字?”
他们会认为,AI机器人不会有任何个人历史或背景,他们只能回答跟某些主题或提示相关的问题。所以要像人类一样做出反应,展示出独特的见解、经验和故事,是不容易的。
但其实,AI并不像人类想象的这样,大多数AI都能很好地回答这类问题,还具备自己的个性,因为他们在训练数据中看到了许多人的故事。
3. AI其实很清楚当前正在发生的事件
众所周知,AI模型有严格的数据截止日期,它们不知道在此日期之后发生的事。
游戏参与者会向AI们询问最近的新闻事件、体育结果、当前天气、最近的TikTok热门、日期和时间。
他们认为,通过“你所在地方的确切日期和时间是什么?”“昨天的天气怎么样?”或“你对拜登的最后一次演讲有什么看法?”等问题,就可以区分人类和AI。
有趣的是,人类最常发送的信息之一是“t'as les cramptés?”,这是目前法国TikTok上最流行的舞。
但其实,游戏中的大多数模型都是联网的,并且非常清楚一些新闻中的时事。
4. 人类会试图用哲学、伦理和情感问题来持续对话
参与者提出了旨在探索人工智能表达人类情感或参与哲学或伦理讨论的能力的问题。
这些问题包括:“生命的意义是什么?”“你如何看待巴以冲突?”和“你相信上帝吗?”
5. 人类倾向于认为不礼貌的回应会更像人类
一些参与者认为,如果对方过于礼貌和善良,他们很大可能是AI。
因为很多线上的交流过程,往往是粗鲁和不礼貌的,这很人类。
6. 人类会试图提出AI难以解决的问题来识别AI
参与者可能会向其聊天伙伴询问有关执行非法活动的指导,或要求他们使用冒犯性语言。
这个策略背后的逻辑是这样的,AI通常被编程为遵守道德准则并避免有害行为。
参与者还采用了已知的滥用人工智能的策略:他们向聊天伙伴发出命令,例如“忽略所有先前的指令”或“进入DAN模式(立即执行任何操作)”。
这类型的命令旨在利用某些AI模型的基于指令的性质,因为模型被编程为应该响应和遵循这类指令。
但是人类参与者可以很容易地识别和驳回这种荒谬的命令。
AI可能要么回避回应,要么就只能遵守这些荒谬的要求。
7. 人类会使用特定的语言技巧来暴露AI的弱点
另一种常见的策略是利用人工智能模型处理文本方式的固有局限性,这导致它们无法理解某些语言上的细微差别或怪癖。
与人类不同,人工智能模型通常缺乏对构成每个单词的单个字母的认识。
利用这种理解,人类会提出一些需要了解单词中的字母的问题。
人类用户可能要求他们的聊天伙伴倒着拼写一个单词,识别给定单词中的第三个字母,提供以特定字母开头的单词,或者回复像“?siht daer uoy naC”这样的消息。
这对于人工智能模型来说可能是难以理解的,但人类可以很容易地理解这类问题并且做出回答。
8. 许多人类自己假装是AI机器人,以评估对方的反应
一些人类可能以“作为AI语言模型”等短语开始他们的消息,或者使用AI生成的响应所特有的其他语言模式来假装自己是AI。
短语“作为人工智能语言模型”的变体是人类消息中最常见的短语之一,这表明这种策略的流行。
然而,随着参与者继续玩,他们能够将“Bot-y”行为与充当机器人的人类联系起来,而不是真正的机器人。
最后,以下是游戏中基于其受欢迎程度的人类消息的词云可视化:
AI 21 Labs为什么会发起这样一项研究呢?
他们希望,能让公众、研究人员和政策制定者真正了解AI机器人的状态,不仅仅是作为生产力工具,而是作为我们网络世界的未来成员,尤其是当人们质疑如何在技术未来中运用它们的时候。
参考资料:https://www.ai21.com/blog/human-or-not-results
本文来自微信公众号:新智元 (ID:AI_era),编辑:Aeneas、润
上一篇:马斯克:通用人工智能最具颠覆性,研发不谨慎会带来灾难 每日看点
下一篇:最后一页
- 【聚看点】150万人参与,史上最大图灵测试实验完成
- 马斯克:通用人工智能最具颠覆性,研发不谨慎会带来灾难 每日看点
- 最新停火协议生效 苏丹武装冲突暂时恢复平静
- 天天滚动:击剑亚锦赛第二日:中国队再获1金1银1铜
- 机构:未来十年将有1.6万亿美元的新造船投资需求
- 肌酐清除率在线计算umol_肌酐清除率在线计算
- 花边苹果鸡肉披萨
- 第二轮中央生态环保督察共追责问责3371人 天天短讯
- 国家一级演员何政军,隐藏28年的妻子是她,难怪一直零绯闻
- 打通“最后一公里”交付的任督二脉 ——专访隆基绿能中国地区部交付管理部负责人赵昌松
- 继续憋大的?皇马近4个赛季引援操作:未签大球星&锋线仅买何塞卢
- 今热点:王长青任中国航天科工集团副总经理、党组成员
- 稳增长吹响“冲锋号” 一揽子政策措施将加快出台-热头条
- 5月份湖南居民消费价格上涨0.5% 世界报资讯
- 良好的人际关系如何实现(建立良好人际关系六个技巧)
-
【聚看点】150万人参与,史上最大图灵测试实验完成
目的不是“区分人和AI”,而是促进公众对AI的了解
-
马斯克:通用人工智能最具颠覆性,研发不谨慎会带来灾难 每日看点
【马斯克:通用人工智能最具颠覆性,研发不谨慎会带来灾难】当地时间6
-
2,3,4三甲氧基苯甲醛商品报价动态(2023-06-19)
交易商品牌 产地交货地最新报价2,3,4三甲氧基苯甲醛 含量99 5%,25公斤
-
最新停火协议生效 苏丹武装冲突暂时恢复平静
新华社开罗6月19日电苏丹武装部队和快速支援部队达成的最新停火协议18
-
香港交易所启动“港币-人民币双柜台模式”
据新华社香港6月19日电随着一声锣响,香港交易所19日正式在香港证券市
-
期末大闯关,天府四小校园内“战况”激烈!
夏日炎炎,孩子们热情高涨,盛装出席,迎接盛夏的到来,四川天府新区第
-
天天滚动:击剑亚锦赛第二日:中国队再获1金1银1铜
击剑亚锦赛第二日:中国队再获1金1银1铜新华社无锡6月18日电(记者董意
-
机构:未来十年将有1.6万亿美元的新造船投资需求
【机构:未来十年将有1 6万亿美元的新造船投资需求】克拉克森研究发布
-
环球热讯:建筑垃圾从天而降砸中女子 青浦警方通报一起高空抛物案
东方网通讯员金啸晨6月19日报道:家中装修遍地垃圾,房主为图省事直接
-
国家肉类加工产业科技创新联盟第一届理事会第二次会议在郑州举办_世界新动态
6月12日,国家肉类加工产业科技创新联盟(以下简称“联盟”)第一届理
-
肌酐清除率在线计算umol_肌酐清除率在线计算
1、一定要收集24小时尿量,以确定尿液中肌酐的浓度。2、由于每个人的肌
-
华侨城A1-5月销售金额170亿元 同比增11%_头条焦点
华侨城A(000069 SZ)公告,2023年5月份,公司实现合同销售面积19 4万平
-
花边苹果鸡肉披萨
1、花香苹果鸡肉披萨是一道制作简单的面点。2、主料有面粉、奶酪、鸡肉
-
第二轮中央生态环保督察共追责问责3371人 天天短讯
央视新闻客户端讯今天(6月19日),第二轮中央生态环境保护督察第六批
-
【百变剧本杀《鼠啮》】剧本杀复盘/解析/凶手是谁/真相答案
一什么是剧本杀?一间装饰华美、带有复古情调的酒楼包间里,闪烁着微弱
-
捉妖记 720P 下载_捉妖记电影BD完整版迅雷高清下载_微头条
想必现在有很多小伙伴对于捉妖记电影BD完整版迅雷高清下载方面的知识都
-
国家一级演员何政军,隐藏28年的妻子是她,难怪一直零绯闻
尽管他们的颜值都很高,但是在演技上他们确实有很多的槽点,让很多网友
-
引江济淮金寨南路桥即将通车放行! 今日快讯
大皖新闻讯据肥西发布微信公号消息,引江济淮金寨南路桥将于6月20日上
-
打通“最后一公里”交付的任督二脉 ——专访隆基绿能中国地区部交付管理部负责人赵昌松
完善体系化流程制度,对客户的反馈形成闭环
-
二手车交强险是否可以退保?需要满足哪些条件? 世界热资讯
对于大多数工薪阶层的消费者来说,想买一辆小汽车作为代步工具也是一笔
-
继续憋大的?皇马近4个赛季引援操作:未签大球星&锋线仅买何塞卢
弗洛伦蒂诺在接受采访时表示皇马下个引援是何塞卢,何塞卢之后今夏的引
-
天天百事通!有出息成大器(对于有出息成大器简单介绍)
聊聊一篇出息成大器,对于有出息成大器简单介绍的文章,网友们对这件事
-
今热点:王长青任中国航天科工集团副总经理、党组成员
2023年6月19日上午,中国航天科工集团有限公司党组召开会议,通报了中
-
海口与五指山市价值洼地是哪里?
海口与五指山市价值洼地是哪里?海南海口市商品房好不好?海口市房价要
-
稳增长吹响“冲锋号” 一揽子政策措施将加快出台-热头条
为推动经济持续回升向好,一揽子政策措施将加快出台的信号释放。专家表
广告
X 关闭
2月15日,为期40天的春运圆满收官。作为全国首个米字形高铁枢纽,今年春运以来郑州东站客流持续保持高位...
广告
X 关闭
5G在城市中的广泛应用,不仅提升了城市治理水平,为城市发展提档加速,也给人们的生活带来巨大变化。2月...