互联网，已经不够用了

www.creaders.net | 2024-04-02 17:15:25 华尔街日报 | 0条评论 | 查看/发表评论

　　OpenAI和Anthropic等公司正在设法寻找足够的信息来训练下一代AI模型。数据是供不应求的几种重要AI资源之一。

　　急于开发更强大AI的公司突然面临一个新问题：对于它们的计划来说，互联网可能太小了。

　　OpenAI、谷歌(Google)和其他公司开发的功能越来越强大的系统需要更多的信息来学习。而在一些数据所有者屏蔽AI公司对自身数据访问的情况下，这种需求导致互联网上可用的优质公共数据池变得紧张。

　　一些企业高管和研究人员表示，该行业对高质量文本数据的需求可能会在两年内超过供应量，从而有可能减缓AI的发展。

　　AI公司正在寻找尚未开发的信息源，并重新思考如何训练这些系统。熟悉内情的人士说，ChatGPT的出品商OpenAI已经讨论过将公开的YouTube视频里所说的内容转换成文本，并以此为基础训练该公司的下一个模型GPT-5。

　　一些公司还在尝试使用AI生成的数据（也称合成数据）作为训练材料，许多研究人员表示，这种方法实际上可能会造成严重的故障。

　　这些做法通常都是秘密进行的，因为企业高管认为解决方案也可以是一种竞争优势。

　　AI研究员Ari Morcos说，数据短缺“是一个前沿性的研究问题”；他曾在Meta Platforms和谷歌DeepMind部门工作，去年创办了DatologyAI。他的公司打造改进数据选择的工具，可能帮助企业以更低的成本训练AI模型；DatologyAI的投资者包括一些AI先驱企业。“目前还没有成熟的方法可以做到这一点。”

　　数据是供不应求的几种重要AI资源之一。在ChatGPT、谷歌的Gemini和其他AI机器人背后运行的大型语言模型所需的芯片也很稀缺。此外，行业领导者担心的还有数据中心和这些中心所需电力的不足。

　　AI语言模型是利用从互联网上获取的文本建立的，这些文本包括科学研究、新闻报道和维基百科(Wikipedia)条目。这些材料被分解成词元(token)，即模型用来学习如何构建类似人类表达的单词和部分单词。

　　一般来说，AI模型训练的数据越多，能力就越强。OpenAI对这种方法押下了大注，由此成为了世界上最著名的AI公司。

　　OpenAI没有透露该公司目前最先进的语言模型GPT-4的详细训练材料；GPT-4已成为高级生成性AI系统的行业标准。

　　但据Pablo Villalobos估计，GPT-4的训练素材已经多达12万亿个词元；Villalobos为研究院Epoch研究AI。Villalobos和其他研究人员估计，根据一个名为Chinchilla扩展定律(Chinchilla Scaling Law)的计算机科学原理，如果研究人员继续遵循当前的增长轨迹，像GPT-5这样的AI系统将需要60万亿到100万亿个词元的数据。

　　Villalobos说，利用所有可用的高质量语言和图像数据之后，仍可能至少存在10万亿个-20万亿个词元的缺口。尚不清楚如何弥补这一缺口。

　　两年前，Villalobos和他的同事写道，高质量数据到2024年中期供不应求的可能性为50%，到2026年供不应求的可能性为90%。自那以来他们变得更乐观了一点儿，他们计划把预测所涉时间框架更新到2028年。

　　可在网上获得的大部分数据对AI训练来说并无用处，因为存在句子残缺等缺陷，或者不能增进模型的知识。Villalobos估计，互联网上的数据只有一小部分对此类训练有用——也许仅相当于非营利组织Common Crawl收集的信息的十分之一。该组织的网络数据集被AI开发者广泛使用。

　　与此同时，社交媒体平台、新闻出版商和其他相关方出于对公平补偿等问题的关切，已在对获取其数据用于AI训练设限。公众也很少愿意交出私人对话数据（如通过iMessage进行的聊天）来帮助训练这些模型。

　　扎克伯格(Mark Zuckerberg)最近宣扬了Meta Platforms在自家平台上获取数据的能力，将其当成该公司发展AI业务的一大优势。他说，Meta可以挖掘旗下各个网络（包括Facebook和Instagram)上数以千亿计公开分享的图片和视频，其总量大于多数常用的数据集。尚不清楚这些数据中有多大比例会被视为高质量数据。

　　数据挑选工具初创企业DatologyAI采用的一种策略被称为课程学习，即按照特定顺序把数据输入语言模型，希望AI能在概念之间形成更好的关联。在2022年的一篇论文中，DatologyAI的Morcos和合著者估计，模型借助半数相关数据就能达到同样的效果——只要数据是合适的——这有可能降低训练和运行大型生成式AI系统所需的巨大成本。

　　迄今为止的其他一些研究暗示课程学习这种办法效果不佳，但Morcos说他们正持续调整自己的方法。

　　“这是深度学习方面不足为外人道的秘密：这是在以直观的方法试错，”Morcos说。

　　包括OpenAI的合作伙伴微软(Microsoft)在内，一些科技公司正构建体量仅为GPT-4的一小部分，但可以实现特定目标的较小语言模型。

　　OpenAI首席执行官阿尔特曼(Sam Altman)已表示该公司正在研究训练未来模型的新方法。他在去年的一次会议上说：“我认为我们正处于一个时代的末期，这个时代由这些巨型模型组成；我们会用其他方式让它们变得更好。”

　　知情人士说，OpenAI还讨论过创建一个数据市场，在这个市场上OpenAI可以建立一种方法来确定每个数据点对最终训练模型的价值贡献程度，并向相关内容的提供者支付报酬。

　　谷歌内部也在讨论同样的想法。但迄今为止，研究人员一直在努力构建这样一个系统，目前还不清楚他们能否找到突破口。

　　OpenAI还在努力收集一切已有的有用信息。知情人士称，高管们已经讨论过使用自动语音识别工具Whisper在互联网上转录高质量视频和音频示例。这些人说，其中一些将通过公开的YouTube视频来实现，这些视频中的一部分已经被用来训练GPT-4。

　　OpenAI的一位发言人说：“我们的数据集是独一无二的，我们进行了整理，以帮助我们的模型领悟世界”，她还说，其工具从公开可用的内容中提取信息，并通过合作伙伴关系获取非公开数据。

　　谷歌没有回复记者的置评请求。

　　一些公司也在尝试制作自己的数据。

　　输入本身由AI生成的模型文本，被认为是近亲繁殖的计算机科学版本。此类模型往往会出现胡编乱造的现象，一些研究人员称之为“模型崩溃”。

　　去年的一篇研究论文讨论的一项实验中，加拿大和英国的研究人员发现，当被要求讨论14世纪的英国建筑时，这种模型的后代版本会喋喋不休地谈论不存在的杰克兔物种。

　　OpenAI和Anthropic的研究人员正试图通过创建所谓更高质量的合成数据来规避这些问题。

　　在最近的一次采访中，Anthropic首席科学家Jared Kaplan表示，某些类型的合成数据可能会有所帮助。Anthropic说，它使用“我们内部生成的数据”为其最新版本的Claude模型提供信息。这位发言人称，OpenAI也在探索合成数据生成。

　　许多研究数据问题的人士对最终找到解决方案持乐观态度。Villalobos将其比作“石油峰值”，即担心石油生产可能会触顶并引发一场痛苦的经济崩溃。由于新技术的出现，这种担忧已被证明是不准确的，比如本世纪初的压裂技术。

　　他说，AI世界也有可能出现类似的发展。“最大的不确定性在于你将看到什么样的突破。”

相关新闻

AI 真是个犟种	AI应用遍地开花　今年半导体销售估破1万亿美元
马斯克Grok遭批生成不雅内容　国际社会密切关注	特斯拉车主横跨整个美国全程没碰方向盘
2026年的AI，真的要“抢饭碗”了	人工智能真的能帮人们找到爱情吗？
可怕！美专家警告：AI误判恐在几分钟内引爆核战	华尔街分析师：2026年最看好的5支AI概念股
辉达携手台积电冲刺中企200万颗H200大单	14亿年薪还不够美巨头再砸140亿收购华人AI公司
中国AI机器人“造反”视频疯传	豪掷20亿：Meta收购Manus，肖弘出任副总裁
软银卖光英伟达持股含泪完成对OpenAI承诺	60后到00后，我家两代4位程序员戳中的残酷真相
最强7大AI工具排行榜出炉最大黑马杀出	他杀死83岁母亲！AI的温柔正在杀人
硅谷一线峰会，这一幕令大佬们清醒	长期与AI聊天，会诱发这种精神病
YouTube推荐影片1/5竟是“AI废片”	174名北大学生能否考过AI？结果很意外

“人工智能AI”

当前新闻共有0条评论

分享到：

评论前需要先登录或者注册哦

全部评论

实用资讯

抗癌明星组合多年口碑保证！天然植物萃取有效对抗癌细胞
中老年补钙必备，2星期消除夜间抽筋、腰背疼痛，防治骨质疏松立竿见影

24小时新闻排行榜

更多>>

1	回国后憋了好久才敢直说这个国家
2	中国代表团困在委国川普最忠心盟友公开名
3	三星堆为何不继续挖? 再挖下去神话或成现实
4	刚签20年石油大单！马杜罗被捕，三大冲击袭
5	高举华为手机...马杜罗被生擒的3个喜感

48小时新闻排行榜

更多>>

1	回国后憋了好久才敢直说这个国家
2	从中国回流熬到第10天我的存款几乎清
3	中国代表团困在委国川普最忠心盟友公开名
4	三星堆为何不继续挖? 再挖下去神话或成现实
5	中南海政治风暴前兆？韩正挤掉习核心
6	美军首次公开这视频习近平该害怕了
7	刚签20年石油大单！马杜罗被捕，三大冲击袭
8	高举华为手机...马杜罗被生擒的3个喜感
9	传中方军人被困委国重演许杏虎—邵云环一
10	委国总统被捕北京深夜震怒牛弹琴发文

热门专题

1 委内瑞拉	6 万维专栏	11 AI
2 川普	7 四中全会	12 中共两会
3 俄乌战争	8 美伊冲突	13 大S
4 中美冷战	9 以伊战争	14 洛杉矶大火
5 中日关系	10 何卫东	15 叙利亚

一周博客排行

更多>>

1	三千年未有之新中国——一份关	万维网友来
2	元旦“马折后蹄”，洛阳神级隐	雷歌747
3	共军上将军头集体消失的秘密	胡亥
4	杨纯华：暴君毛泽东	万维网友来
5	习近平黑化成魔，肆意暗杀处决	天机指南
6	70%美国大学毕业生找不到工作	乐维
7	中美真正差距在此	山货郎
8	川普说曾亲自直接对马杜罗劝降	高伐林
9	一觉醒来，马杜罗被抓了	湮灭之城
10	人工智能正在摧毁美国	汪翔

一周博文回复排行榜

更多>>

1	马杜罗被白头鹰叼走了，委国人	阿妞不牛
2	东亚战争准备：从暗杀安倍开始	随意生活
3	川普到底卖了乌克兰没有？	山蛟龙
4	强权不受约束：当“比较优势”	遍地是贪官
5	马杜罗夫妇被擒，世界更接近和	施化
6	老知青“横断万重山”也谈“知	横断万重山
7	川普说曾亲自直接对马杜罗劝降	高伐林
8	中美真正差距在此	山货郎
9	关于离岸爱国	阿里克斯Y
10	70%美国大学毕业生找不到工作	乐维


关于本站 \| 广告服务 \| 联系我们 \| 招聘信息 \| 网站导航 \| 隐私保护
Copyright (C) 1998-2026. Creaders.NET. All Rights Reserved.