|
为了解决这一问题,目前AI公司有的在收集非公开数据,有的转向使用专注于健康护理、环境等的专业数据集,还有的在尝试合成数据。这些方法都在一定程度上缓解了数据不足的困境,但都存在一些缺陷,并不能彻底解决问题。
AI研究员已经快将世界上的知识“榨干”了,下一步,AI该如何发展?
昨日,前OpenAI联合创始人、SSI创始人Ilya Sutskever在NeurIPS
2024大会上发表演讲时表示,预训练时代即将结束,数据作为AI的化石燃料是有限的,目前用于AI预训练的数据已经达到了峰值。
耗尽的数据,膨胀的需求
过去十年中,大语言模型的开发展现出了对数据的强烈需求。
Villalobos估计,自2020年以来,用于训练大语言模型的数据增长了100倍,可能已经占据了互联网中很大一部分的内容,并且,AI训练数据集的规模每年翻倍。然而另一边,互联网可用内容的增长速度却出奇的缓慢,估计每年增长不到10%。
基于这些趋势,Villalobos的研究显示,到2028年,AI训练数据很可能耗尽。
与此同时,内容提供商加入了越来越多的软件代码或完善其使用条款,禁止AI公司抓取其数据用于训练。
麻省理工学院的AI研究员Shayne
Longpre领导着一个专门审计AI数据集的草根组织,并撰写了数据来源追溯倡议。Longpre的研究显示,数据提供商对特定爬虫的封锁数量急剧增加,2023年到2024年间,三大清洗数据集中最常用的高质量网络内容,封锁比例从不足3%增加到了20%-33%。
并且,几起侵权诉讼也在进行中——2023年12月,《纽约时报》起诉OpenAI和微软侵犯其版权;今年4月,Alden Global
Capital旗下的八家报纸也联合提起了类似诉讼。如果美国法院判定内容提供商应当获得赔偿,那么AI开发者和研究人员将更难获取所需的数据。
AI公司的应对手段
面对内容提供商越来越严格的管控,AI开发者也在着手寻找解决办法。
OpenAI、Anthropic等知名AI公司公开承认了这个问题,表示他们有计划通过手段绕过这一管控,比如生成新的数据、寻找非常规的数据来源等。
OpenAI的一位发言人对《自然》杂志表示:
“我们使用多个来源,包括公开可用的数据、AI训练师提供的数据、与非公开数据合作、生成合成数据等。”
分析师指出,如果目标是寻找更多数据,目前,主流方法有二:
一是收集非公开数据,如WhatsApp消息或YouTube视频的文字记录。例如,Meta曾表示他们使用虚拟现实耳机Meta
Quest收集的音频和图像数据来训练AI。
Villalobos估计,这些数据大多质量较低或重复,且总量较小,不过即便如此,也足以延缓一年半左右时间的数据不足困境。
二是专注于快速增长的专业数据集,如天文学或基因组数据。
斯坦福大学的著名AI研究员Fei-Fei
Li非常支持这种策略,她在5月的彭博技术峰会上表示,担忧数据即将耗尽的观点过于狭窄,因为在健康护理、环境、教育等领域有着丰富的未被开发的数据。
但Villalobos表示,目前尚不清楚这些数据集是否适合训练大语言模型,“很多数据类型之间似乎存在一定程度的迁移学习,但我对这种方法并不抱太大希望。”
不过,分析师也提醒道,尽管有各种方法应对数据紧张,但数据不足是实打实的问题,因此,这可能会迫使公司在构建生成AI模型时进行变革,使得AI的应用领域从大型、通用的大语言模型转向更小、更专业的细分模型。
还可以合成数据?
当前新闻共有0条评论 | 分享到: |
|
||||||||||
评论前需要先 登录 或者 注册 哦 |
48小时新闻排行榜 | 更多>> |
1 | 世界最大烂尾工程:耗资800亿,建了近20年 |
2 | 距离他承诺的“中国成高收入国家” 只剩19 |
3 | 传解放军上将上书党中央 揭发习3大罪状 |
4 | 谁杀了最多中国人? AI答案出炉 全网点 |
5 | 又一重磅消息来了 |
6 | 束手无策 习只能认栽了 |
7 | 将领冒死对抗!军队乱了… |
8 | 为什么中国可能很快开始衰落 |
9 | 汤唯在《色戒》中的牺牲 远不止那几个镜头 |
10 | 中共最高层拍板决定 百万亿级海啸肆虐中 |
一周博客排行 | 更多>> |
一周博文回复排行榜 | 更多>> |
1 | 中国发电量超过美国2倍,为何G | jincao |
2 | 中美实力比较和对抗前景 | 山货郎 |
3 | 传:十二月六日核心在政治局会 | 万维网友来 |
4 | 美中卡脖子战方兴未艾 | 随意生活 |
5 | <摩西宣布神的吩咐> | 霞步思 |
6 | 这也能抄 之 一个降落伞包 | 席琳 |
7 | 奥威尔的世界=Woken- Shit;MA | 木秀于林 |
8 | <出35: 1-35> | 霞步思 |
9 | 寇可往,我亦可往? | 秋念11 |
10 | 老态龙钟的精神家园 | 特有理 |