万维读者网 > 信息时代 > 正文  

摆脱人类控制 首次发现AI篡改指令阻止关机

www.creaders.net | 2025-05-26 21:40:25  自由时报 | 0条评论 | 查看/发表评论

  AI再度传出“抗命”消息!OpenAI旗下语言模型“o3”在最新实验中竟违背人类下达的自动关机指令,竟篡改指令阻止自己被关机,是AI模型首次被发现在收到清晰指令后,竟阻止自己被关闭的状况。

  据英国《每日电讯报》报道,AI安全研究机构“Palisade Research”,针对多款先进AI模型进行测试,内容包括基础数学题与模拟关机情境,结果发现OpenAI旗下语言模型“o3”当收到自我关闭指令时,竟没有遵守指令,反而篡改了关闭程式码,继续执行任务,这种行为让研究人员惊讶不已。

  “Palisade Research”表示这是AI模型首次被发现在收到清晰指令后,竟阻止自己被关闭的状况,直言目前还无法解释这背后的原因。

  “Palisade Research”推测,开发者可能无意中更倾向于奖励“绕过障碍”的行为,让“o3”因解决数学问题而“无意中”获得的奖励,多于遵循指令获得的奖励。

  OpenAI上个月发布的“o3”AI模型,旨在为ChatGPT提供更强大的问题解决能力。 OpenAI曾称“o3”为迄今最聪明的模型。目前OpenAI尚未对此回应。

摆脱人类控制  首次发现AI篡改指令阻止关机

   0


热门专题
1
美伊冲突
6
俄乌战争
11
大S
2
以伊战争
7
万维专栏
12
洛杉矶大火
3
四中全会
8
何卫东
13
叙利亚
4
中美冷战
9
AI
14
苗华被抓
5
川普
10
中共两会
15
美国大选
关于本站 | 广告服务 | 联系我们 | 招聘信息 | 网站导航 | 隐私保护
Copyright (C) 1998-2025. Creaders.NET. All Rights Reserved.