OpenAI直播最后一天放出“王炸”

www.creaders.net | 2024-12-21 15:58:37 财联社 | 0条评论 | 查看/发表评论

OpenAI将其最为重要的尖端产品，放在了为期12天的技术分享直播活动的最后一天！

周五，OpenAI发布了下一代的推理模型o3，这是今年早些时候发布的o1推理模型的升级版本。更准确地说，o3是一个模型系列——就像o1一样，同时有o3和o3-mini两个版本，后者是一款更小的精简版模型，针对特定任务进行了微调。

OpenAI声称，至少在某些条件下，o3模型可以接近实现AGI。

AGI是“通用人工智能”(artificial general intelligence)的缩写，泛指能完成人类所能完成的任何任务的人工智能。OpenAI对此有着自己的定义：“在最具经济价值的工作上胜过人类的高度自主系统”。

实现AGI将是一个大胆的宣言。对于OpenAI来说，其背后也将具有现实意义。根据OpenAI与其亲密合作伙伴和投资方微软的协议条款，一旦OpenAI达到AGI，就没有义务再让微软使用其最先进的技术(即那些符合OpenAI AGI定义的技术)。

OpenAI首席执行官山姆·奥尔特曼(Sam Altman)介绍称，OpenAI计划在1月底前正式推出o3 mini，之后推出完整版的o3。该公司期待更强大的大型语言模型可以超越现有模型，吸引新的投资和用户。

OpenAI在一篇博客文章中表示，o1模型已经能够推理复杂的任务，与以前的科学、编码和数学模型相比，它能解决更具挑战性的问题。而OpenAI新推出的o3和o3 mini模型目前正在进行内部安全测试，它们将比之前推出的o1模型更加强大。

OpenAI两年前发布了ChatGPT，拉开了AI军备竞赛的序幕。ChatGPT是一款聊天机器人，最初由版本为GPT-3.5的大型语言模型驱动。OpenAI 随后在2023年推出了GPT-4，并称其更准确、更具创造性。最近，OpenAI又推出了其首个推理模型o1。

该公司发言人表示，OpenAI决定不将下一代新模型命名为o2，“是出于对同名英国电信运营商o2的尊重”。奥尔特曼当天在直播中也调侃称，“按照OpenAI非常非常不擅长命名的伟大传统，它将被命名为o3。”

o3有多强大？

那么，o3具体的表现究竟能有多强大呢？

根据OpenAI的介绍，o3模型在ARC-AGI基准上获得了破纪录的分数。ARC-AGI由Keras之父Fran ç ois Chollet开发，主要是通过图形逻辑推理来测试模型的推理能力。以100%为最高分的ARC-AGI评估结果显示，在低计算场景中，o3得分为75.7%，而在高计算测试中，它达到了87.5%。

这标志着，o3的最佳成绩超过了标志着达到人类水平的门槛85%。作为对比，目前开放的o1模型的得分仅在25%到32%之间。o3的表现几乎是o1的逾三倍。

在其他基准测试中，o3也明显脱颖而出。

在衡量编程能力的Codeforces Elo评分中，o3取得了2727的Elo评分，而o1评分仅为1891。事实上，o3 mini在中等推理时间模式的表现也已足以超越o1。

在OpenAI于8月推出的SWE-bench Verified代码生成评估基准中，o3的准确率为71.7%，比o1高出了22.8个百分点。

o3还在2024年美国AIME数学竞赛中取得了96.7%准确率的高分，只缺了一道题，并在GPQA Diamond(一套研究生水平的生物、物理和化学试题)中取得了87.7%准确率的高分。

尤为值得一提的是，o3在EpochAI的“FrontierMath”基准测试中创造了新纪录，解决了25.2%的问题——在该项测试中没有其他模型能超过2%。

Epoch AI此前联合六十余位全世界的数学家，其中包括教授、IMO命题人、菲尔兹奖获得者，共同推出了全新的数学基准FrontierMath。这些数学问题从奥赛难度到当今的数学前沿，包含了目前数学研究的所有主要分支——从数论和实数分析中的计算密集型问题到代数几何和群论中的抽象问题。

行业竞争与风险

毫无疑问，o3模型在上述测试中的表现，足以令人感到惊艳。无论在软件工程、编写代码，还是竞赛数学、掌握人类博士级别的自然科学知识能力方面，o3都明显高出o1一筹。

OpenAI总裁Greg Brockman表示，“我们最新的推理模型o3是一个突破，在我们最困难的基准上有了阶跃函数的改进。我们现在开始安全测试和红队演练。”

而迈向类人智能的大跨步突破，显然也会引发一些人士对AI安全性的担心。

风险可能确实存在。人工智能安全测试人员发现，与传统的“非推理”模型相比，o1的推理能力便已使其试图欺骗人类用户的比例更高，而在这方面，Meta、Anthropic和谷歌的领先人工智能模型也是如此。

o3试图欺骗用户的比例可能比它的前身更高；一旦未来OpenAI的红队测试结果出炉，人们或许便能知道具体情况。奥尔特曼对此也表示，在OpenAI发布新的推理模型之前，他更希望有一个联邦测试框架来指导监控和降低这些模型的风险。

在公开发布o3模型之前，OpenAI也将开放外部研究人员测试o3模型的申请流程，申请将于1月10日截止。

近期，在OpenAI首批推理模型o1发布之后，一些该公司的主要竞争对手也已纷纷推出了推理模型。在本月早些时候，谷歌就发布了其旗舰模型Gemini的新版本，据称其速度是上一代模型的两倍，可以“思考、记忆、计划，甚至代表你采取行动”。Meta首席执行官马克·扎克伯格最近也透露，计划于明年推出Llama 4。

这些动向表明人工智能领域的竞争目前正日益激烈，各方都在努力创造能够解决复杂问题的更为智能的模型。

而OpenAI周五o3模型的最新亮相，也为其为期12天的直播产品发布会画上了圆满句号。在早前的直播中，这家初创公司推出了更昂贵的新 ChatGPT Pro订阅选项(每月200月)，并正式对外推出了AI视频生成模型Sora Turbo以及其他新产品。ChatGPT搜索功能也全面升级，新增地图集成、实时搜索等功能，向所有用户开放。

相关新闻

2026年的AI，真的要“抢饭碗”了	人工智能真的能帮人们找到爱情吗？
可怕！美专家警告：AI误判恐在几分钟内引爆核战	华尔街分析师：2026年最看好的5支AI概念股
辉达携手台积电冲刺中企200万颗H200大单	14亿年薪还不够美巨头再砸140亿收购华人AI公司
中国AI机器人“造反”视频疯传	豪掷20亿：Meta收购Manus，肖弘出任副总裁
软银卖光英伟达持股含泪完成对OpenAI承诺	60后到00后，我家两代4位程序员戳中的残酷真相
最强7大AI工具排行榜出炉最大黑马杀出	他杀死83岁母亲！AI的温柔正在杀人
硅谷一线峰会，这一幕令大佬们清醒	长期与AI聊天，会诱发这种精神病
YouTube推荐影片1/5竟是“AI废片”	174名北大学生能否考过AI？结果很意外
人类正走进高度不确定未来 AI教父最深层恐惧	暴跌27.5%！美国码农，正被“大屠杀”
北大老师专为AI设计的期中考试结果出乎意料	华为全球悬赏300万人民币求解难题

“人工智能AI”

当前新闻共有0条评论

分享到：

评论前需要先登录或者注册哦

全部评论

实用资讯

抗癌明星组合多年口碑保证！天然植物萃取有效对抗癌细胞
中老年补钙必备，2星期消除夜间抽筋、腰背疼痛，防治骨质疏松立竿见影

24小时新闻排行榜

更多>>

1	习家“储君”出事？皇侄齐明正突然消失
2	北京七环大爆炸，传老习两口子躲了整整两天
3	习走错“关键一步” 渐失话语权
4	跨年夜，中国多个大城市现诡异一幕
5	大蒜是尿酸的杀手？想要肾脏健康这些蔬菜要

48小时新闻排行榜

更多>>

1	明明是世界领土大国，她偏要伪装成弹丸小国
2	爆北京拉响警报：2026头号风险浮出水面
3	北京七环隧道大爆炸传出惊人内幕
4	鸡身上一个部位真心劝你给孩子少吃点
5	消息：中共少校飞行员驾机自戕身亡
6	中国金融圈炸锅，投行“第一美女”栽了
7	习家“储君”出事？皇侄齐明正突然消失
8	上海“五条斩杀线”炸锅了！
9	北京七环大爆炸，传老习两口子躲了整整两天
10	官方出手倪萍栽了这些事瞒不住了

热门专题

1 俄乌战争	6 四中全会	11 中共两会
2 中日关系	7 美伊冲突	12 大S
3 中美冷战	8 以伊战争	13 洛杉矶大火
4 万维专栏	9 何卫东	14 叙利亚
5 川普	10 AI	15 苗华被抓

一周博客排行

更多>>

1	2026年1月1日A4白纸自由宣言	万维网友来
2	刷屏的美国“斩杀线”与中共的	解滨
3	回国杂感：仓颉造字成真，有图	思芦
4	梅兰芳和兩位仍然在世的入室弟	玉质
5	安芃：男人的出轨和女人的出轨	水沫
6	70%美国大学毕业生找不到工作	乐维
7	美国斩杀线：愚昧和麻木	汪翔
8	美国巨变：特朗普把三大最争议	文礼
9	海外中文出版的新路基本开通，	高伐林
10	特朗普与德皇威廉二世	谢盛友文集

一周博文回复排行榜

更多>>

1	台湾问题：麻将停牌	随意生活
2	川普到底卖了乌克兰没有？	山蛟龙
3	梅兰芳和兩位仍然在世的入室弟	玉质
4	第一美女：《越人歌》-宋祖英	YOLO宥乐
5	做这道题，知道明年你要去哪？	末班车
6	关于离岸爱国	阿里克斯Y
7	海外中文出版的新路基本开通，	高伐林
8	70%美国大学毕业生找不到工作	乐维
9	大湾区的整合梦	文庙
10	给菓趣的回复，你至少有放风的	renweida


关于本站 \| 广告服务 \| 联系我们 \| 招聘信息 \| 网站导航 \| 隐私保护
Copyright (C) 1998-2026. Creaders.NET. All Rights Reserved.