![]() |
|
巴克莱分析显示,顶尖AI模型已接近人类专家水平,Claude Opus 4.1获得47.6%胜率领先。AI在零售贸易等领域已超越人类,在软件开发等职业表现优异。更令人震惊的是,AI能力在15个月内提升3倍,呈线性增长趋势。预测未来12-24个月内AI将在大多数工作任务上全面超越人类专家。
OpenAI最新发布的GDPval-v0评测工具首次量化了AI在执行具有经济价值工作任务方面的能力,结果显示AI正迅速追赶甚至逼近人类专业人员水平。巴克莱表示,最先进的AI模型已在诸多职业任务中达到与人类专家相当的能力,并且这种能力提升速度正在加快。
此前文章写道,OpenAI最新发布了一款名为GDPval-v0的全新评估工具,涵盖美国GDP占比较大的九个商业领域中44个职业的约1300项具体工作任务,从法律文书到工程蓝图再到护理计划等真实工作交付成果。
巴克莱分析师认为,AI模型的"胜率"在过去15个月中线性提升约4倍,预计在未来12-24个月内AI将在大多数工作相关任务上超越人类。分析认为,这一突破为评估AI投资回报率提供了关键数据支撑。
评测标准创新突破:模拟真实工作复杂性
据巴克莱研究报告,GDPval基准测试的核心创新在于其真实性和复杂性。
该评测由平均拥有超过14年行业经验的资深专业人士设计,涵盖科技服务、金融保险、医疗保健、信息业、制造业等行业的1230个专业任务。
与传统基准测试不同,GDPval的任务并非简单文本问答,而是包含参考文件和上下文的复杂场景,要求AI交付多样化成果,包括文档、幻灯片、图表和电子表格等。巴克莱指出,这种设计更贴近现实工作环境的复杂性。
评测采用盲测方式,由行业专家对AI和人类生成的工作成果进行排名,从难度、代表性、完成时间和整体质量等维度进行综合评估。
AI性能接近人类专家水平
巴克莱分析显示,当前最先进的AI模型在多个领域已接近或达到人类专家水平。Claude Opus 4.1以47.6%的胜率领先,GPT-5-high紧随其后,达到38.8%,o3 high为34.1%。

从行业维度看,AI在零售贸易(56%胜率)、批发贸易(53%)和政府部门(52%)的表现超过人类专家,但在信息技术行业表现相对较弱(39%)。
职业层面上,AI在柜台和租赁文员(80%)、运输接收和库存文员(76%)以及软件开发人员(70%)任务中表现最佳,而在工业工程师(17%)和影视编辑(17%)任务中表现较差。
各模型表现出不同特点:Claude Opus 4.1在美学表现(格式和布局)方面表现出色,GPT-5在遵循指令和执行准确计算方面最为精准。
能力提升速度惊人
巴克莱报告特别强调了AI能力提升的速度。
研报称,OpenAI模型在GDPval测试中的表现在15个月内提升了3倍以上,这种线性增长趋势表明AI很可能在短期内全面超越人类专家。
对GPT-5的失误分析显示,尽管该模型仍会犯一些灾难性错误(2.7%),但47.7%的失误被归类为"可接受但不佳",22.9%的情况下模型表现甚至优于人类。

巴克莱分析师认为,AI模型的原始智能,特别是GPT-5.已达到超越人类专家的水平。通过更多后期训练(微调、强化学习),AI全面超越行业专家的时代已为时不远。
| 当前新闻共有0条评论 | 分享到: |
|
||||||||||
| 评论前需要先 登录 或者 注册 哦 |
||||||||||||
| 24小时新闻排行榜 | 更多>> |
| 1 | 习近平“大势已去”?中国网民“开锅了” |
| 2 | “我已经决定了!” 川普突发重磅表态 |
| 3 | 曝“手插口袋”的中国司长正在慌忙“灭火” |
| 4 | 内幕:习近平气急败坏 再出昏招?! |
| 5 | 中共正国级领导的“隐性特权”让人瞠目结舌 |
| 48小时新闻排行榜 | 更多>> |
| 一周博客排行 | 更多>> |
| 一周博文回复排行榜 | 更多>> |
| 1 | 川普高市通话.确认美日同盟.战 | 老尚童 |
| 2 | 1977年左宗棠墓被炸开 | 弓长贝占郎 |
| 3 | 我也谈谈“正义和生命必须二选 | 倩影 |
| 4 | 这个要表扬中共 | 阿妞不牛 |
| 5 | 大陆中国跪求川普.高市三戏习 | 木秀于林 |
| 6 | 被告徐勤先 | 不列颠地主 |
| 7 | 毛时代:伟大是抽象的,苦难是 | 老贫农 |
| 8 | 大将罗瑞卿被打倒之迷初探 | 横断万重山 |
| 9 | 高伐林幼稚:谈民族性格缺陷 | 山货郎 |
| 10 | 中共唯一倾心音乐的总书记 | 旅泉 |