万维读者网 > 信息时代 > 正文  

全球正在耗尽数据来喂养AI

www.creaders.net | 2023-11-13 16:00:44  煎蛋网 | 0条评论 | 查看/发表评论

  人工智能(AI)正处于其流行高峰期,研究人员警告称,这一行业可能正在耗尽训练数据,这是运行强大的AI系统的燃料。这可能会减缓AI模型的增长,特别是大型语言模型,并可能改变AI革命的轨迹。

  但是,考虑到网络上有多少数据,为什么潜在的数据短缺会成为一个问题?有没有办法解决这个风险?

  为什么高质量的数据对AI很重要

  我们需要大量的数据来训练强大、准确和高质量的AI算法。例如,ChatGPT是在570GB的文本数据,约3000亿个单词上进行训练的。

  同样,稳定扩散算法(这是许多AI图像生成应用的背后,如DALL-E、Lensa和Midjourney)是在包含58亿个图像-文本对的LIAON-5B数据集上进行训练的。如果算法是在不足量的数据上训练的,它将产生不准确或低质量的输出。

  训练数据的质量也很重要。社交媒体帖子或模糊的照片等低质量数据很容易获得,但不足以训练高性能的AI模型。

  从社交媒体平台获取的文本可能存在偏见、偏见,或包含虚假信息或非法内容,这些内容可能会被模型复制。例如,当微软试图使用Twitter内容来训练其AI机器人时,它学会了制造种族主义和厌恶女性的输出。

  这就是为什么AI开发人员寻求高质量的内容,如书籍、在线文章、科学论文、维基百科和某些过滤后的网络内容。谷歌助手是在从自我出版网站Smashwords收集的11,000本言情小说上进行训练的,以使其更具交互性。

  我们是否有足够的数据?

  AI行业一直在训练越来越大的数据集的AI系统,这就是为什么我们现在拥有ChatGPT或DALL-E 3等高性能模型的原因。与此同时,研究表明,与用于训练AI的数据集相比,网络数据库的增长速度要慢得多。

  去年发表的一篇论文中,一组研究人员预测,如果当前的AI培训趋势继续,到2026年之前,我们将耗尽高质量的文本数据。他们还估计,低质量的语言数据将在2030年至2050年之间耗尽,低质量的图像数据将在2030年至2060年之间耗尽。

  普华永道会计和咨询集团预计,到2030年,AI可能为世界经济贡献15.7万亿美元(24.1万亿澳元)。但是,数据不足可能会减缓其发展。

全球正在耗尽数据来喂养AI

  我们应该担心吗?

  虽然上述观点可能会使一些AI粉丝感到担忧,但情况可能没有看起来那么糟糕。关于AI模型未来如何发展,还有很多未知数,也有一些方法来解决数据短缺的风险。

  一种机会是让AI开发人员改进算法,使其更有效地使用他们已经拥有的数据。

  未来几年,他们可能能够使用更少的数据,甚至可能使用更少的计算能力来训练高性能的AI系统。这也有助于减少AI的碳足迹。

  另一种选择是使用AI来创建合成数据来训练系统。换句话说,开发人员可以简单地生成他们需要的数据,并为特定的AI模型进行筛选。

  一些项目已经在使用合成内容,通常是从数据生成服务(如Mostly AI)中获取的。这在未来将变得更加普遍。

  开发人员还在寻找免费在线空间之外的内容,比如大型出版商和离线存储库拥有的内容。想想互联网出现之前出版的数百万篇文本。如果可以以数字形式提供,它们可以为AI项目提供新的数据来源。

  新闻集团是世界上最大的新闻内容所有者之一(其许多内容都在付费墙后面),最近表示正在与AI开发人员谈判内容交易。这样的交易将迫使AI公司为培训数据付费——因为他们迄今为止大多是免费从互联网上抓取数据。

  内容创作者抗议未经授权使用他们的内容来训练AI模型,一些人起诉微软、OpenAI和稳定性AI等公司。为他们的工作获得报酬可能有助于恢复创意和AI公司之间存在的权力失衡。

   0


24小时新闻排行榜 更多>>
1 玩弄北京于股掌 习近平首度破天荒教训金正
2 何时打台湾?传习军委会议说了8个字
3 突发!直升机坠毁 国防司令等10名高级军官
4 动真格了!中国人口第一大省开砸铁饭碗
5 通车才3年:中国造价2亿的大桥 风一吹就倒

48小时新闻排行榜 更多>>
1 余茂春惊人预告 习近平的噩梦要来了
2 突发:全球最大光刻机巨头爆雷 股价跳水
3 火箭军又将大地震?习四个字批示
4 华尔街大鳄警告 它是一个“巨大的泡沫”
5 玩弄北京于股掌 习近平首度破天荒教训金正
6 何时打台湾?传习军委会议说了8个字
7 中国力推免签 2024第一季出入境人次破1
8 复旦研究生珠峰地区登山死亡 真相更令人愤
9 突发!直升机坠毁 国防司令等10名高级军官
10 乌军战线快要崩溃了 俄军惊人坦克曝光
热门专题
1
以哈战争
6
中共两会
11
秦刚失踪
2
中美冷战
7
台湾大选
12
火箭军悬案
3
乌克兰战争
8
李克强猝逝
13
台海风云
4
万维专栏
9
中国爆雷
14
战狼外交
5
美国大选
10
李尚福出事
15
普里戈津
一周博客排行 更多>>
1 习近平一盘神秘大棋成就了大日 文庙
2 周傥:美国迫在眉睫的危险 万维网友来
3 速战速决 伊朗真乃大丈夫也 体育老师
4 达唐:故宫博物院遭公开举报 万维网友来
5 谁是中国人? 谢盛友文集
6 现代战争目的:摧毁战争意志 施化
7 日本电影《追捕》中的杜丘和真 弓长贝占郎
8 辛峰:特鲁多为什么不信加拿大 万维网友来
9 我宁在纽约行乞,也不在上海做 恨中
10 川普就是美国的毛泽东 右撇子
一周博文回复排行榜 更多>>
1 川普就是美国的毛泽东 右撇子
2 警惕有人把民主党与共和党的关 karkar
3 美国为何选择这个时候公布中共 山蛟龙
4 周傥:美国迫在眉睫的危险 万维网友来
5 现代战争目的:摧毁战争意志 施化
6 谁敢买中共国的电动车? 山蛟龙
7 习近平一盘神秘大棋成就了大日 文庙
8 去......化 山蛟龙
9 暴力,自由的唯一杀手 施化
10 钱的力量 倩影
关于本站 | 广告服务 | 联系我们 | 招聘信息 | 网站导航 | 隐私保护
Copyright (C) 1998-2024. CyberMedia Network/Creaders.NET. All Rights Reserved.