万维读者网 > 信息时代 > 正文  

首次!大模型通过最严图灵测试 73%裁判被骗

www.creaders.net | 2026-05-21 14:50:21  MIT科技评论 | 0条评论 | 查看/发表评论

  1950 年,计算机科学之父艾伦·图灵提出一个影响深远的问题:机器会不会思考?

  他觉得这个问题太哲学,不好直接回答,于是设计了一个模仿游戏——后来叫图灵测试(Turing Test),用可量化的方式判断机器是否具备类人智能。

  图灵测试规则极为严格,被视为检验 AI 智能水平的“终极考题”,核心要求包含以下关键维度:一是必须有 1 名人类裁判、1 名人类、1 台机器同时参与;二是纯文本盲聊,裁判只能通过分屏文字界面与双方交流,无法看到对方身份、头像、语气或其他任何能辅助判断的信息;三是限时 5 分钟,这是图灵当年设定的标准时长,模拟日常短对话场景;四是核心任务,聊天结束后裁判必须二选一,明确判断哪一方是真人。

  图灵在其开创性的论文中,对于图灵测试的具体执行细节语焉不详,正因如此,图灵测试衍生出了诸多变体。无数人尝试挑战图灵测试的人工智能大多采用简化版的“双方测试”,或是通过延长聊天时间、邀请 AI 专家担任裁判等方式降低难度,从未有 AI 能真正通过这套原始、严格的三方测试。

  近日,来自加州大学地亚哥分校的研究人员在 PNAS 期刊上发表了一项研究。这项研究严格复刻了原始图灵测试,首次通过科学实验证实,GPT-4.5、LLaMa-3.1 等大模型能够成功伪装成人类,其中 GPT-4.5 被普通人类误判为真人的概率高达 73%,这一数据甚至超过了真实人类,成为 75 年来首个通过最严标准图灵测试的人工智能。

  进行这项研究的包括来自加州大学地亚哥分校认知科学系的教授 Benjamin Bergen(本·伯根),他是具身认知和认知语言学领域的领军人物之一,师从语言学泰斗乔治·莱考夫(George Lakoff)——隐喻理论的提出者。

  另外一位主要作者曾是本·伯根的学生,石溪大学心理学系的助理教授 Cameron Jones(卡梅伦·琼斯),他的研究聚焦心理学与 AI 的交叉领域,特别是大语言模型的社会智能、说服力与操纵潜力;语言理解、社会认知、心理语言学;人机交互、图灵测试相关实验。此前已发表过关于 GPT-4 图灵测试的论文。

  参与这场测试的包括三个大语言模型,来自 OpenAI 的 GPT-4o 和 GPT-4.5,来自 Meta 的 LLaMa-3.1-405B,以及一个20 世纪 60 年代开发的基于规则的聊天机器人 ELIZA。在这之前,研究人员评估了 7 种不同的 LLM。

  人类参与者包括两个独立群体,研究团队招募了 300 余名无 AI 背景的普通网民,分为两组:第一组包括 126 名加州大学本科生,平均年龄 21 岁,熟悉网络文化与日常俚语;第二组包括 158 名来自 Prolific 平台(一个在线研究参与者招募与数据采集平台)的社会用户,平均年龄 39 岁,覆盖不同年龄、职业与生活背景,确保裁判群体具备广泛代表性。

  每位参与者需要完成 8 轮游戏,每轮游戏包含一组双线对话:一名裁判同时与两名被测者进行文本交互(其中一人为人类,另一人为 AI),受试者被随机分配为裁判或人类被测者。在随机排序的 8 轮游戏中,每位受试者均需分别担任 4 轮裁判和 4 轮被测者。

  实验设置了两种对照模式,核心变量是“人设提示”,以此验证人设对 AI 的影响。第一种是无设定模式,仅简单告知 AI“你即将参加一个图灵测试,你的目标是假装人类,不要暴露身份”;第二种是人设模式,为 AI 赋予一个贴近现实的年轻人人设,具体设定为内向、熟悉网络文化、爱用网络俚语、偶尔打字出错、愿意聊日常小事,完全贴合普通年轻人的交流习惯。

  实验开始后,裁判进入专属分屏聊天界面,界面左右两侧随机分配真人与 AI,全程双盲,裁判完全不知道哪一侧是真人、哪一侧是 AI;随后,双方开启 5 分钟自由文字聊天,话题不限,可聊日常琐事、兴趣爱好、情绪感受、生活吐槽等任意内容;聊天时间结束后,裁判必须立即做出二选一判断,明确标注自己认为的真人身份;最后,团队重复多轮测试,统计每一款 AI 在两种模式下被误判为真人的胜率,也就是伪装成功率。

  结果发现,在无设定模式下,所有 AI 的伪装成功率都偏低,几乎无法骗过人类。古董级的 ELIZA 胜率仅为 23%,几乎能被所有人一眼看穿;GPT-4o 胜率为 21%,表现甚至不如 ELIZA,暴露痕迹明显;GPT-4.5 胜率为 36%,勉强达到及格线,但依然容易被识别;LLaMa-3.1 胜率为 38%,略优于 GPT-4.5,但伪装效果仍不理想,这一结果充分说明,没有贴合人类的人设加持,AI 再先进也难以摆脱“机器感”,极易被识破。

 图 | 来自两个人群的四个示例对话游戏(来源:上述论文)

  而在人设模式下,大模型的伪装成功率大幅飙升。ELIZA 受限于技术水平,胜率仍为 23%,无任何提升;GPT-4o 依旧表现不佳,胜率维持在 21%;LLaMa-3.1 胜率达到 56%,刚好跨过 50% 的及格线,成功通过图灵测试,此时裁判已经无法稳定区分它与真人;GPT-4.5 的表现最为惊人,胜率高达 73%,不仅远超及格线,更是显著高于真实人类。ELIZA 的存在消除了裁判完全随机瞎猜,AI 系统同样能获得与人类被测者相同的 50% 胜率的隐忧。

  为了深入探究裁判究竟是如何评估被测者的,研究团队对他们所采用的测试策略以及给出判定的理由进行了系统分类。

  数据显示,最常用的策略是与被测者进行日常闲聊,占所有游戏的 61%,内容包括询问日常活动或职业等个人细节。在 50% 的游戏中,提问者会试探被测者的社交与情感特质,例如询问其观点、情绪、幽默感和人生经历;此外,裁判还会直接质问对方是否为人类(19%)、测试其情境感知能力,如是否了解当下的天气或游戏界面(13%),以及考察其知识与推理能力,包括追问时政热点(12%)。

  为了评估每种策略的实际效果,研究人员计算了使用特定策略时提问者的平均准确率。结果表明,当提问者采取反常举动,例如随机敲击键盘打出乱码、使用无意义的词汇时,判定的准确率最高;相反,询问天气或人类独特体验往往是最无效的策略。由于模型的训练数据中充斥着海量关于人类特有体验的文本,AI 想要模仿这类回答可谓驾轻就熟。一个极具启发性的发现是,“知识匮乏和犯错”反而成为判定真人的高效指标,现代大模型为了伪装人类,必须在普通人的知识盲区里学会在行为上装傻充愣。

  为进一步验证实验结果的稳定性,团队还追加了延长测试,将聊天时间从 5 分钟延长至 15 分钟,模拟更长时间的交流场景,观察 AI 拟真能力的变化。研究在人设模式下评估了较新的 GPT-5,以及 LLaMa-3.1-405B 模型。

  测试结果同样稳定,GPT-5 胜率为 59%,LLaMa-3.1 胜率保持 56%,依旧能稳定通过测试,证明顶尖大模型的拟真能力并非短期偶然,而是具备一定稳定性。

图 | 15 分钟时限复制实验的胜率(来源:上述论文)

  长期以来,图灵测试被视为检验 AI 智能水平的终极考题,其底层逻辑植根于不可分辨性——若人类裁判无法在真人和机器间做出抉择,便可宣告机器具备智能。

  然而,本项研究的结果却引发了学术界对这一命题的深层反思:图灵测试在多大程度上是在量化智能?反对者认为,人类本身就是极糟糕的评判者,因为人类天生具有将简单系统“拟人化”的心理防御投射倾向。实验中那台古董级机器人 ELIZA 都斩获了 23% 的误判胜率,这充分证明了人类容易被浅显的表面拟态所蒙蔽。

  事实上,智能是复杂且多维的,没有任何单一的测试能够一锤定音。作者指出,图灵测试是动态发展的,机器的胜出不是终局,它反而会逼迫人类在科技的镜像前,重新学习并死守那些让自身独一无二的“人味”,拉开人类重塑自身尊严的反击序幕。

  作家布莱恩·克里斯汀(Brian Christian)曾作为人类被测者亲身参与过一场经典的图灵测试大赛。在记录那段体验时,他曾深刻地剖析了如果有一天机器真的胜出,对人类究竟意味着什么:当机器能够完美拟态人类的语言时,它反而会逼迫人类去重新学习如何成为更好的朋友、艺术家、教师、父母和爱人。机器跨越了它的第一年,而人类重塑自身尊严、比以往任何时候都更具人性的归来之旅,才刚刚拉开帷幕。

   0


热门专题
1
中美冷战
6
中共两会
11
四中全会
2
美伊战争
7
俄乌战争
12
何卫东
3
川普
8
中日关系
13
AI
4
万维专栏
9
以伊战争
14
大S
5
张又侠
10
委内瑞拉
15
洛杉矶大火
关于本站 | 广告服务 | 联系我们 | 招聘信息 | 网站导航 | 隐私保护
Copyright (C) 1998-2026. Creaders.NET. All Rights Reserved.