Claude4.5重夺最强模型王冠编码能力超人类专家

www.creaders.net | 2025-11-26 00:00:47 腾讯科技 | 0条评论 | 查看/发表评论

11月25日凌晨，Anthropic发布了其迄今最强大的AI模型Claude Opus 4.5。该公司宣称，新模型在软件工程任务上实现了“最先进性能”，进一步加剧了其与OpenAI、谷歌等对手之间的竞争。

Claude Opus 4.5在Anthropic软件工程测试中表现出色，得分超越Gemini 3 Pro、GPT-5.1等一众对手。

公司数据显示，该模型在SWE-bench Verified（一项评估现实世界软件工程能力的基准测试）中达到了80.9%的准确率，表现超越了OpenAI的GPT-5.1-Codex-Max（77.9%）、Anthropic自家的Sonnet 4.5（77.2%）以及谷歌的Gemini 3 Pro（76.2%）。

同时，Anthropic大幅下调了这款模型的定价：输入token降至每百万5美元，输出token为每百万25美元，较前代产品Claude Opus 4.1（输入15美元/百万，输出75美元/百万）下降约三分之二。

降价使得尖端AI技术对广大开发者和企业更加触手可及，同时也给竞争对手带来了性能与价格的双重压力。

在现实任务中展现更优判断力

测试人员普遍反馈，新模型在各种任务中展现出更强的判断力与直觉。他们将这种进步描述为：模型开始领悟现实情境中的“关键所在”。

“这个模型好像突然‘开窍’了，”开发者关系负责人阿尔伯特表示，“它在处理许多现实问题时表现出的直觉和判断力，让人感觉相比前代模型实现了一次质的跨越。”

阿尔伯特以自身工作为例进一步说明：过去他仅利用AI收集信息，而对它们的整合与优先级排序能力持保留态度。如今，借助Opus 4.5，他已开始委托更完整的任务，通过连接Slack和内部文档，模型能生成与他预期高度契合的连贯摘要。

宾夕法尼亚大学沃顿商学院教授、生成式AI实验室联合主任伊桑·莫利克测试后评论道，新模型的能力确实处于技术前沿。其最显著的提升在于实际应用，例如跨软件操作（如用Excel制作PPT）。

Claude 4.5重夺最强模型王冠：编码能力超越人类专家

图：Claude Opus 4.5在SWE Bench软件工程测试中的性能表现

在核心工程测试中超越所有人类工程师

Claude Opus 4.5在Anthropic内部一项高难度工程评估中创下了新纪录。这项评估本是公司为性能工程师岗位设计的限时编程测试，要求求职者在两小时内完成，旨在考察其技术能力与问题判断力。

Anthropic透露，通过采用“并行测试时计算”技术，即汇总模型的多次解题尝试并筛选最优结果，Opus 4.5的最终得分超越了所有曾参与该测试的人类工程师。

在不限时间的条件下，若在其专用编码环境Claude Code中运行，Claude Opus 4.5的解题表现更是与史上最高分的人类工程师持平。

不过该公司也坦言，这类测试无法衡量其他关键专业技能，例如团队协作、有效沟通，或是经年累月形成的专业直觉。

效率飞跃：核心基准测试token消耗大幅降低76%

除原始性能突破外，Anthropic更将效率提升视为Claude Opus 4.5的核心竞争力。新模型在达成相同甚至更优结果时，所需处理的计算token数量显著减少。

具体数据显示，在“中等”投入级别下，Opus 4.5可在SWE-bench Verified测试中达到与Sonnet 4.5相同的最高分，而输出token消耗量却大幅降低了76%。即便在“高”投入级别追求极限性能时，其表现比Sonnet 4.5再提升4.3个百分点，token使用量仍减少了近一半（48%）。

为赋予开发者更精细的控制权，Anthropic引入了全新的“投入”参数。用户可通过此参数，动态调节模型处理每个任务时所投入的计算工作量，从而在性能、响应速度和成本之间找到最佳平衡点。

GitHub首席产品官马里奥·罗德里格斯也证实了类似发现：“早期测试表明，Opus 4.5在token消耗减半的同时，性能仍超越了我们的内部编码基准，尤其在代码迁移与重构等复杂任务上表现尤为出色。”

阿尔伯特对此现象作出技术解读：Claude Opus 4.5并非直接更新其底层参数，而是在持续优化解决问题的工具与方法。“我们看到它在迭代精进任务技能，通过自主优化执行方式来提升最终效果，”他解释道。

这种自我进化能力已突破编程领域。阿尔伯特透露，在专业文档生成、电子表格处理和演示文稿制作等场景中，模型表现均有显著提升。

产品生态全面升级：深度集成Office与浏览器，突破对话长度限制

伴随新模型的发布，Anthropic同步推出了一系列面向企业场景的重要更新。

专为Excel设计的Claude功能现已向Max、Team及Enterprise用户全面开放，新增了对数据透视表、可视化图表及文件上传的完整支持。同时，Chrome浏览器扩展也已向全体Max用户开放使用。

本次更新最具革命性的当属“无限聊天”功能——该技术通过智能总结长对话中的早期内容，有效突破了传统上下文窗口的限制。“在Claude AI产品中，凭借我们创新的内容压缩与内存管理技术，用户实际上获得了近乎无限的对话效果，”阿尔伯特解释道。

面向开发者群体，Anthropic推出了更具工程价值的“程序化工具调用”能力，使得Claude能够直接编写并执行可调用外部函数的代码。同时，Claude Code不仅升级了“计划模式”，更以研究预览版形式推出了桌面客户端，首次支持开发者并行运行多个AI智能体会话。

如何使用Claude Opus 4.5 API - CometAPI - 一个API 中的所有AI 模型

三强竞逐加速，AI步入“自我进化”与盈利挑战并存新阶段

模型迭代速度正成为竞争焦点。

Opus 4.5距前代Haiku 4.5和Sonnet 4.5发布仅相隔数周，这折射出整个行业的加速态势。2025年间，OpenAI持续推出多个GPT-5变体，并于11月发布可自主运行24小时的Codex Max模型；谷歌也经过数月打磨，在11月中旬正式推出Gemini 3。

值得注意的是，Anthropic正利用AI技术反哺自身研发。阿尔伯特透露：“无论是产品构建还是模型研究，Claude本身都在为我们提供助力，显著加速了开发进程。”

面对价格战可能带来的利润压力，阿尔伯特持乐观态度：“降价将推动更多初创公司深度集成并主推我们的技术，从而扩大市场基础。”然而，尽管AI市场预计十年内将突破万亿美元规模，主要实验室在巨额投入计算设施与人才的同时，盈利之路依然漫长，尚未有任何供应商确立绝对主导地位。

对企业和开发者而言，这场竞赛正转化为持续提升的性能与不断下降的成本。但随着AI在专业技术任务上逼近甚至超越人类水平，其对各行业工作模式的颠覆已从理论探讨变为现实挑战。

谈及AI在工程测试中超越人类的表现，阿尔伯特坦言：“这无疑是一个值得高度重视的信号。”

相关新闻

人工智能真的能帮人们找到爱情吗？	可怕！美专家警告：AI误判恐在几分钟内引爆核战
华尔街分析师：2026年最看好的5支AI概念股	辉达携手台积电冲刺中企200万颗H200大单
14亿年薪还不够美巨头再砸140亿收购华人AI公司	中国AI机器人“造反”视频疯传
豪掷20亿：Meta收购Manus，肖弘出任副总裁	软银卖光英伟达持股含泪完成对OpenAI承诺
60后到00后，我家两代4位程序员戳中的残酷真相	最强7大AI工具排行榜出炉最大黑马杀出
他杀死83岁母亲！AI的温柔正在杀人	硅谷一线峰会，这一幕令大佬们清醒
长期与AI聊天，会诱发这种精神病	YouTube推荐影片1/5竟是“AI废片”
174名北大学生能否考过AI？结果很意外	人类正走进高度不确定未来 AI教父最深层恐惧
暴跌27.5%！美国码农，正被“大屠杀”	北大老师专为AI设计的期中考试结果出乎意料
华为全球悬赏300万人民币求解难题	连人形机器人公司自己都认为，这项技术炒过头了

“人工智能AI”

当前新闻共有0条评论

分享到：

评论前需要先登录或者注册哦

全部评论

实用资讯

抗癌明星组合多年口碑保证！天然植物萃取有效对抗癌细胞
中老年补钙必备，2星期消除夜间抽筋、腰背疼痛，防治骨质疏松立竿见影

24小时新闻排行榜

更多>>

1	明明是世界领土大国，她偏要伪装成弹丸小国
2	爆北京拉响警报：2026头号风险浮出水面
3	北京七环隧道大爆炸传出惊人内幕
4	消息：中共少校飞行员驾机自戕身亡
5	中国金融圈炸锅，投行“第一美女”栽了

48小时新闻排行榜

更多>>

1	明明是世界领土大国，她偏要伪装成弹丸小国
2	波兰参战了
3	要玩真的了！他点名警告习近平
4	会议内幕曝光！习等四人遭“围攻”
5	万劫不复！中国正在重演晚清最后十年
6	更多人出事？北京流传神秘名单
7	爆北京拉响警报：2026头号风险浮出水面
8	北京大秀肌肉时刻，一张“致命照片”被公布
9	意义不亚于建造航母！中国胜利隧道通车
10	北京七环隧道大爆炸传出惊人内幕

热门专题

1 俄乌战争	6 四中全会	11 中共两会
2 中日关系	7 美伊冲突	12 大S
3 中美冷战	8 以伊战争	13 洛杉矶大火
4 万维专栏	9 何卫东	14 叙利亚
5 川普	10 AI	15 苗华被抓

一周博客排行

更多>>

1	2026年1月1日A4白纸自由宣言	万维网友来
2	刷屏的美国“斩杀线”与中共的	解滨
3	回国杂感：仓颉造字成真，有图	思芦
4	梅兰芳和兩位仍然在世的入室弟	玉质
5	安芃：男人的出轨和女人的出轨	水沫
6	美国斩杀线：愚昧和麻木	汪翔
7	美国巨变：特朗普把三大最争议	文礼
8	70%美国大学毕业生找不到工作	乐维
9	海外中文出版的新路基本开通，	高伐林
10	特朗普与德皇威廉二世	谢盛友文集

一周博文回复排行榜

更多>>

1	台湾问题：麻将停牌	随意生活
2	梅兰芳和兩位仍然在世的入室弟	玉质
3	川普到底卖了乌克兰没有？	山蛟龙
4	第一美女：《越人歌》-宋祖英	YOLO宥乐
5	做这道题，知道明年你要去哪？	末班车
6	关于离岸爱国	阿里克斯Y
7	海外中文出版的新路基本开通，	高伐林
8	70%美国大学毕业生找不到工作	乐维
9	大湾区的整合梦	文庙
10	给菓趣的回复，你至少有放风的	renweida


关于本站 \| 广告服务 \| 联系我们 \| 招聘信息 \| 网站导航 \| 隐私保护
Copyright (C) 1998-2025. Creaders.NET. All Rights Reserved.

Claude4.5重夺最强模型王冠 编码能力超人类专家

Claude4.5重夺最强模型王冠编码能力超人类专家