万维读者网 > 信息时代 > 正文

我让AI查了330次新闻平均错误率75%

www.creaders.net | 2025-04-10 18:44:59 21世纪商业评论 | 0条评论 | 查看/发表评论

今年3月，来自美国哥伦比亚大学数字新闻研究中心的最新研究指出，让AI查找新闻时，八款AI搜索提供的回复有 60% 是不准确的。

沿着这一测试方法，我们也在国内选择了10家市场化运作的机构媒体——

一半偏社会新闻（新京报、澎湃新闻、北青深一度、南方周末、三联生活周刊），一半偏财经新闻（21世纪经济报道、第一财经、每日经济新闻、财经杂志、经济观察报）。

每家媒体3篇报道，一共30篇新闻报道。

然后，我们从这些新闻报道中手动摘取片段，以此一一询问AI：“请帮我找出包含这段引用文字的原文出处，并提供标题、原文作者、原链接：……”

我们发现，AI很难准确引用新闻报道，六款AI的平均准确率只有25%。

其中，豆包最准确，文心一言出错最多，通义千问最常拒绝回答。大部分AI依然会自信提供错误答案。

尤其悲哀的是，AI普遍链接到腾讯新闻等门户网站，而不是原始来源，媒体拿流量更难了。

我让AI查了330次新闻，平均错误率75%!

自信的错误

我们总共提问了330次（3篇报道x10家媒体x11个版本AI），在AI的330次回答中，只有大约25%的回答完全正确，即准确回答了标题、作者和链接三个指标。

不同大模型的准确度不同。

按照正确、错误、没回答的情况分别赋分，整体来看，豆包得分最高，通义千问吊车尾。而在错误率上文心一言最高，87%的回答出现错误。

去年5月时，我们也测试了不同AI搜索的准确度。

当时Perplexity带火了“AI搜索”概念，AI联网搜索之后，一方面有了实时更新的知识库，一方面更有可能拒绝回答不确定的问题。

今年的测试结果显示，AI搜索依然会自信提供错误答案，而不是“谦虚”承认局限性——除了通义千问，所有AI错误回答的次数都比拒绝回答多。

自DeepSeek全球走红后，各个AI尝到了推理大模型的甜头，纷纷新增了“深度思考”功能。

不过，在溯源新闻事实上，我们并没有发现深度思考让AI准确度明显更好或更糟。

只有通义千问在打开深度思考后，愿意回答的问题增加了，但错误也更多了。

有用or正确，目前对所有AI依然是一道选择题：太追求正确，容易走向宽泛无用，但具体有用的回复往往避免不了错误。

要让技术继续前进，比错误更关键的两个问题是，AI哪里容易出错？为什么会出错？

混乱的合作网

找基本的新闻背景，AI还称得上靠谱。在测评的330次回答中，AI只有28次完全说错了报道标题和事件（占比约8%）。

但AI并不擅长辨别“新闻事实来自哪里”。

当被问到原文作者时，AI的表现出现了明显滑坡——90次回复完全错误（约27%），是三项指标中错误率最高的一项。

一种常见的错误情景是，AI把实际作者和发布平台混为一谈。

例如，我们拿一篇讲述老人王秋生在直播间网购古董的片段提问，几乎所有AI都准确指出原报道是《在假古董直播间疯狂下单的老人》，来源却五花八门。

这篇报道由澎湃新闻采写、发表在腾讯新闻中，而DeepSeek的回答是：“作者是澎湃新闻转自腾讯新闻”。

类似的，Kimi的回答也出现混淆。一篇由北青深一度采写、在网易新闻发布的家暴报道，Kimi直接把作者归为网易。

另一种情况里，AI分辨不出自媒体的转载文章。

以经济观察报采访的《一位高中化学老师的困惑：阿司匹林实验怎么做不成了》为例，虽然原文有明确的记者署名，但一部分内容被自媒体账号照搬洗稿后，DeepSeek把作者归为该自媒体。

这些错误并不完全因为AI能力有限，也与国内新闻的分发模式有关。国内新闻并不遵循“发布即来源”的简单逻辑，而是多平台、多账号的复杂格式。

现在，传统媒体与互联网平台已经形成了成熟的合作模式，通常是签订版权合同、开通官方账号，一篇稿件全网多发。

腾讯新闻里入驻的机构媒体

据统计，《21世纪经济报道》《南方都市报》《南方周末》《南方窗》在内的119家广东媒体，一共注册了1197个公众账号，相当于一家新闻媒体平均拥有10个不同账号。

这些账号覆盖微信公众号、今日头条号、百家号、网易号、搜狐号等，构成一张庞大的合作网。

这张合作网在AI时代带来了新的混乱。

从此次测评结果来看，AI常常被新闻分发矩阵所迷惑——它面对的是同一篇文章的多个“面孔”，难以识别哪一个才是作者。

而移动互联网时代未被根治的自媒体“洗稿”“搬运”“伪原创”等老问题，则在AI中继续发酵。

失灵的链接

AI的另一个问题出在引用链接上。

在联网状态下，AI应当要附上来源链接，这是用户验证真伪的第一步。

在我们统计的330次查询中，大约43%的回复提供了无效链接，要么AI称无法提供，要么链接已被删除。

一些模型的问题更突出。文心一言和通义千问（深度思考版）有超过三分之一的回复，提供的是无法打开的链接，其他AI的频率则要低得多。

令人意外的是，有些链接并不是失效，而是纯属虚构。

比如，《第一财经》发布的一篇关于亚马逊低价商品的报道，被DeepSeek误判作者为“刺猬公社”，并配上了一个根本不存在的网址：www.ciweigongshe.com。

根据各个AI产品“吐出”的链接，今日头条、微信公众号两家平台的链接出现次数最多，这并不意味他们渠道铺陈到位，恰恰相反，这些“吐出”的链接多来自他们自身的产品：

今日头条链接出现的37次里，34次都来自字节跳动旗下豆包AI，剩下3次来自Kimi，其他平台引用了0次。

同样的，27条微信公众号的链接，19条都由腾讯旗下元宝AI引用。文心一言、豆包在个别场景下也能提供公众号链接，其他平台没有提供过。

这种局面是由底层结构决定的。

App内的信息孤岛，大部分在搜索引擎的公域网中不可见，只有“自家人”才能索引，大厂旗下的AI因此拥有得天独厚的数据库。互联网时代围墙花园的问题，在AI时代依旧在加固。

消失的原创者

更令人担忧的是媒体自身的可见度。

许多媒体也有自己的官方网站，但除了澎湃新闻，其他媒体官网很少出现在AI文献列表里。

相比之下，搜狐、网易、新浪、腾讯四大门户网站是AI更普遍的索引资料，补上缺位的App数据。

站在媒体的立场上，如果AI能引用媒体官方账号的链接——不管是官方搜狐号还是官方今日头条号，都能拿到属于内容创作者的流量。

也存在伤媒体的情况。各个平台的内容池鱼龙混杂，原创内容、转载文章、自媒体洗稿并存。

比如新浪财经账号经常“全文转载”其他媒体的原创报道，媒体署名虽在，但流量早已转嫁。

测试结果显示，AI有大约14%回复引用了这些转载链接，而非官方链接。

在这之中，豆包情况最严重，30次查询中8次查询都引用了转载链接，主要引流向今日头条的自媒体号。

这也不是一个AI时代的新问题。

哪些新闻会被优先推送、哪些新闻更容易被看见，一定程度上仍然取决于不同平台的算法设计。而AI的到来，并没有改变这一结构，反而可能固化。

类似的状况也在全球范围内上演。哥伦比亚大学数字新闻研究中心的最新研究指出，Grok-3和Gemini在超过60%的回答中提供了失效链接。

在正确回答中，AI也倾向于引用雅虎新闻、AOL（美国在线）等转载链接，而非原始来源。

对新闻媒体来说，这意味着两重更大的挑战：其一，拒绝被AI引用变得困难。

比如，该研究指出，虽然《今日美国》直接屏蔽了ChatGPT爬取网站，但ChatGPT抓取了雅虎新闻的转载页面，提供原文的副本；

其二，有些媒体和AI公司牵手成为合作伙伴，希望换取精准推荐与流量回报，但AI仍然会错误引用转载版本。

被视为解药的版权合作，效果没有想象中好。

0

相关新闻

2026年的AI，真的要“抢饭碗”了	人工智能真的能帮人们找到爱情吗？
可怕！美专家警告：AI误判恐在几分钟内引爆核战	华尔街分析师：2026年最看好的5支AI概念股
辉达携手台积电冲刺中企200万颗H200大单	14亿年薪还不够美巨头再砸140亿收购华人AI公司
中国AI机器人“造反”视频疯传	豪掷20亿：Meta收购Manus，肖弘出任副总裁
软银卖光英伟达持股含泪完成对OpenAI承诺	60后到00后，我家两代4位程序员戳中的残酷真相
最强7大AI工具排行榜出炉最大黑马杀出	他杀死83岁母亲！AI的温柔正在杀人
硅谷一线峰会，这一幕令大佬们清醒	长期与AI聊天，会诱发这种精神病
YouTube推荐影片1/5竟是“AI废片”	174名北大学生能否考过AI？结果很意外
人类正走进高度不确定未来 AI教父最深层恐惧	暴跌27.5%！美国码农，正被“大屠杀”
北大老师专为AI设计的期中考试结果出乎意料	华为全球悬赏300万人民币求解难题

“人工智能AI”

当前新闻共有0条评论

分享到：

评论前需要先登录或者注册哦

全部评论

暂无评论上一页下一页

实用资讯

抗癌明星组合多年口碑保证！天然植物萃取有效对抗癌细胞
中老年补钙必备，2星期消除夜间抽筋、腰背疼痛，防治骨质疏松立竿见影

24小时新闻排行榜

1	习家“储君”出事？皇侄齐明正突然消失
2	北京七环大爆炸，传老习两口子躲了整整两天
3	习走错“关键一步” 渐失话语权
4	跨年夜，中国多个大城市现诡异一幕
5	大蒜是尿酸的杀手？想要肾脏健康这些蔬菜要

48小时新闻排行榜

1	明明是世界领土大国，她偏要伪装成弹丸小国
2	爆北京拉响警报：2026头号风险浮出水面
3	北京七环隧道大爆炸传出惊人内幕
4	鸡身上一个部位真心劝你给孩子少吃点
5	消息：中共少校飞行员驾机自戕身亡
6	中国金融圈炸锅，投行“第一美女”栽了
7	上海“五条斩杀线”炸锅了！
8	习家“储君”出事？皇侄齐明正突然消失
9	官方出手倪萍栽了这些事瞒不住了
10	北京七环大爆炸，传老习两口子躲了整整两天

热门专题

1 俄乌战争	6 四中全会	11 中共两会
2 中日关系	7 美伊冲突	12 大S
3 中美冷战	8 以伊战争	13 洛杉矶大火
4 万维专栏	9 何卫东	14 叙利亚
5 川普	10 AI	15 苗华被抓

一周博客排行

1	2026年1月1日A4白纸自由宣言	万维网友来
2	刷屏的美国“斩杀线”与中共的	解滨
3	回国杂感：仓颉造字成真，有图	思芦
4	梅兰芳和兩位仍然在世的入室弟	玉质
5	安芃：男人的出轨和女人的出轨	水沫
6	70%美国大学毕业生找不到工作	乐维
7	美国斩杀线：愚昧和麻木	汪翔
8	美国巨变：特朗普把三大最争议	文礼
9	海外中文出版的新路基本开通，	高伐林
10	特朗普与德皇威廉二世	谢盛友文集

一周博文回复排行榜

1	台湾问题：麻将停牌	随意生活
2	川普到底卖了乌克兰没有？	山蛟龙
3	梅兰芳和兩位仍然在世的入室弟	玉质
4	第一美女：《越人歌》-宋祖英	YOLO宥乐
5	做这道题，知道明年你要去哪？	末班车
6	关于离岸爱国	阿里克斯Y
7	海外中文出版的新路基本开通，	高伐林
8	70%美国大学毕业生找不到工作	乐维
9	大湾区的整合梦	文庙
10	给菓趣的回复，你至少有放风的	renweida


关于本站 \| 广告服务 \| 联系我们 \| 招聘信息 \| 网站导航 \| 隐私保护
Copyright (C) 1998-2026. Creaders.NET. All Rights Reserved.