重磅消息传来！通过测试了，74年来最高！54%的参与者误认为它是真人

自英国计算机科学家阿兰·图灵（Alan Turing）于1950年提出关于判断机器是否能够思考的著名试验“图灵测试”以来，该测试就被视为判断计算机是否具有模拟人类思维能力的关键。近期，OpenAI开发的GPT-4模型完成了这项闻名全球的测试，再度引发广泛关注。

加州大学圣地亚哥分校认知科学系博士生Cameron R. Jones和教授Benjamin K. Bergen在预印本arXiv上发表的最新论文表明，越来越多的人难以在图灵测试中区分GPT-4和人类。

两位研究人员以真人、初代聊天机器人ELIZA、GPT-3.5和GPT-4为研究对象，试图了解谁在诱使人类参与者认为它是人类方面表现最成功。结果显示，多达54%的参与者将GPT-4误认为真人，是迄今为止首次有AI模型以如此高的结果通过图灵测试。

还需要指出的是，上述研究开展之时，OpenAI尚未宣布新一代的旗舰模型GPT-4o，如果参与测试的是GPT-4o，这一比例可能还会更高。

重磅消息传来！通过测试了，74年来最高！54%的参与者误认为它是真人-编程日记

GPT-4通过图灵测试54%的人将其误认为真人

上述研究人员招募了500名参与者，让他们与四位“对话者”进行五分钟的交流，这四位“对话者”分别是真人、初代聊天机器人ELIZA、GPT-3.5和GPT-4。参与者在对话结束后需判断对方是人还是机器。（注：ELIZA是由麻省理工团队在1964年至1966年期间开发的史上第一个聊天机器人，上世纪60年代曾参与图灵测试，但宣告失败。该机器人没有大语言模型或神经网络支持。）

双方将通过一个类似即时通讯应用的界面进行交流。界面底部有一个聊天输入框，屏幕中央为对话记录，顶部有一个计时器和触发帮助和报告的按钮。招募到的参与者首先发送消息，双方交替发送，每条消息限制在一定的字符数内。

针对AI语言模型，研究人员基于表现最好的GPT-4命令集（提示词）进行了修改，指示其表现得像一个年轻人，不要太认真对待游戏，使用口语化表述，且不要出现拼写和语法错误。此外，AI模型也不能提供太多的知识，尤其是语文和数学方面的知识。每轮测试开始时，还会添加一些额外的信息，如姓名、地点和时间戳。

而且，为了模拟真实的交流延迟，AI的回复会根据消息的长度人为地延迟发送。这种设置旨在模拟正常的人际交流节奏，增加实验的现实感。研究小组解释称，人类之所以不能百分之百地识别同类，是因为提问者认为AI的效率越来越高。这增加了他们将人类错误地识别为机器的可能性。

为了深入了解影响参与者最后作出决定的定性因素，研究小组对其使用的策略和判断的理由进行了分类。36%的参与者与“对话者”进行闲聊，询问个人细节或他们的日常活动；第二类策略是社交和情感（25%），例如询问“对话者”的意见、经历并分析判断它们的幽默感；第三类是知识和推理（13%），包括数学、逻辑和常识问题。

结果显示，有54%的参与者将GPT-4误认为是真人。相比之下，预先设定好回复的ELIZA只有22%的人将其认作真人，GPT-3.5则为50%，而“真人对话者”被正确辨认的比例则为67%。

重磅消息传来！通过测试了，74年来最高！54%的参与者误认为它是真人-编程日记

决策依据表明，社交情感能力是关键

《每日经济新闻》记者注意到，研究人员在论文中对“真人对话者”被正确辨认的比例只有67%感到震惊。

他们指出，这可能反映出参与者认为AI系统质量在不断进化，这一结果也与近年来其他类似的图灵测试呈现的情况类似。当AI系统能力很差时，真人是很容易被辨别出来的，而随着参与者对AI系统能力的信心增强，他们便更有可能将真人误认为AI。

作者在论文中指出，他们的结果为图灵测试提供了一些经验性证据。就他们使用的策略和给出的决策理由而言，被招募的参与者在测试中更关注的是研究对象在对话中的风格和社交情感因素，而不是更传统的智力类回答，例如知识和推理能力。他们认为，这可能是因为参与者认为，社交能力是成为机器最无法模仿的人类特征。

GPT-4和GPT-3.5在测试中的表现虽然未达到“真人对话者”的水平，但目前AI研究者普遍认为，只要有30%的回答被误认为是人类，那就算通过测试。不过也有观点认为，50%的基线更加合理，因为它更能证明人类在识别AI方面并不具有偶然性。

在上述研究中，参与者的置信度得分和决策依据都表明他们并非随意猜测：GPT-4是人类的平均置信度为73%。

还需要指出的是，由于研究人员在进行上述实验时，OpenAI尚未宣布新一代的旗舰模型GPT-4o。这一全新模型可以利用语音、视频和文本信息进行实时推理，如果参与测试，被参与者误认为人类的结果可能就会更高。

图灵测试是由英国计算机科学家阿兰·图灵（Alan Turing）于1950年在其论文《计算机器与智能》中提出的一个关于判断机器是否能够思考的著名试验，测试某机器是否能表现出与人等同或无法区分的智能水平。1966年，美国计算机协会（ACM）还以图灵的名字设立了图灵奖，被誉为“计算机界的诺贝尔奖”，旨在奖励对计算机事业作出重要贡献的个人，每年颁发一次。

记者|蔡鼎

编辑|程鹏兰素英盖源源

校对|何小桃

封面图片来源：视觉中国（资料图图文无关）

｜每日经济新闻 nbdnews 原创文章｜

未经许可禁止转载、摘编、复制及镜像等使用

重磅消息传来！通过测试了，74年来最高！54%的参与者误认为它是真人

国内首颗量产全功能DPU面市随智算中心铺开有望迎需求放量

每经热评丨是否“油电同权”需深思熟虑要平衡好发展与公平竞争的关系

最新文章

SpaceX龙飞船发射升空，美国被困太空9个月的宇航员终于能回来了

“全国消协智慧315平台”正式上线

“全国消协智慧315平台”正式上线数智赋能满意消费

「评论」东方雨虹“掏家底”式分红不可取

财联社汽车早报「3月15日」

财联社汽车早报3月15日

通用具身智能平台发布，未来两三年内，人形机器人在柔性制造场景有望实现较大规模应用

科技早报 | 苹果计划在AirPods配备实时对话翻译功能；华为PC全面转向鸿蒙系统

净利96.1亿元，“券茅”年报出炉！

无人机和机器人越来越“像” 无人机新品用上国产激光雷达

标签

关注我们么么哒！

重磅消息传来！通过测试了，74年来最高！54%的参与者误认为它是真人

国内首颗量产全功能DPU面市 随智算中心铺开有望迎需求放量

每经热评丨是否“油电同权”需深思熟虑 要平衡好发展与公平竞争的关系

猜你喜欢

无人机和机器人越来越“像” 无人机新品用上国产激光雷达

机器人量产提速引领行业变革，机器人ETF易方达（159530）等产品助力把握产业发展机遇

AI教母李飞飞推“保姆”机器人，倒垃圾刷马桶家务全承包，还能用Switch手柄遥控

上海：做好2025年人工智能医疗器械创新任务揭榜挂帅工作

AI创业进入“淘汰赛” MiniMax洽谈收购视频生成创企鹿影科技

影响市场大事件：杭州强化算力在智能驾驶、具身智能等领域的应用；杭州建成全国最大的自动驾驶测试应用“田”，总面积达6910平方公里

2025AI+消费·智享未来报告丨消费全产业链的AI想象“Wow时刻”何时到来？

“2025 AI+消费•智享未来报告” | 消费全产业链的AI想象，“Wow时刻”何时到来？

世界像是被按了快进键的科幻！对话智元机器人合伙人姚卯青

谷歌DeepMind推出用于机器人的AI模型

弘信电子：FPC在机器人关节连接、传感器布局以及电池连接等关键部位得到应用

机器人激光雷达成禾赛科技“第二成长曲线”？该业务去年12月出货量超2万台

最新文章

SpaceX龙飞船发射升空，美国被困太空9个月的宇航员终于能回来了

标签

关注我们 么么哒！

关注我们的公众号

国内首颗量产全功能DPU面市随智算中心铺开有望迎需求放量

每经热评丨是否“油电同权”需深思熟虑要平衡好发展与公平竞争的关系

关注我们么么哒！