万维读者网 > 信息时代 > 正文  

AI已经在基本任务上击败了人类!

www.creaders.net | 2024-04-15 21:13:43  美加财经 | 0条评论 | 查看/发表评论

  自然》杂志的分析说,一份新的报告显示,人工智能(AI)系统(如聊天机器人 ChatGPT)已经变得非常先进,在阅读理解、图像分类和竞赛级数学等任务中,表现几乎可以媲美或超越人类。

  这些系统的快速发展也意味着,许多用于评估这些系统的通用基准和测试正在迅速过时。

  这些只是《2024 年人工智能指数报告》中的几项重要发现,报告由加利福尼亚州斯坦福大学以人为中心的人工智能研究所于 4 月 15 日发布,描绘了机器学习系统在过去十年中取得的飞速发展。

  报告特别指出,评估人工智能的新方法越来越有必要,例如评估它们在抽象和推理等复杂任务中的表现。

  斯坦福大学社会科学家、人工智能指数主编内斯特·马斯雷说:”十年前,基准测试可以用 5-10 年,而现在往往在短短几年内就变得不堪用了。进步速度之快令人吃惊”。

  斯坦福大学的年度人工智能指数于 2017 年首次发布,由一群学术界和业界专家编制,旨在评估这个领域的技术能力、成本、伦理等,以为研究人员、政策制定者和公众提供信息。

  今年的报告长达400多页,借助人工智能工具进行了文案编辑和紧缩,报告指出,美国与人工智能相关的监管压力正在急剧上升。但由于缺乏对负责任地使用人工智能的标准化评估,因此很难对系统所带来的风险进行比较。

  今年的报告还重点介绍了人工智能在科学领域的应用:报告首次用整整一章的篇幅介绍科学应用,重点介绍的项目包括谷歌DeepMind旨在帮助化学家发现材料的 “材料探索图网络”(Graph Networks for Materials Exploration,GNoME),以及DeepMind的另一个快速天气预报工具 “图播报”(GraphCast)。

  不断成长

  当前的人工智能热潮——建立在神经网络和机器学习算法之上,可以追溯到 2010 年代初,此后迅速发展。例如,GitHub(一个共享代码的通用平台)上的人工智能编码项目数量,从2011年的约800个增加到去年的180万个。

  报告称,在此期间,有关人工智能的期刊论文大约增加了两倍。

  人工智能方面的许多前沿工作都是由工业界完成的,去年产生了51个著名的机器学习系统,而学术研究人员则贡献了15个。德克萨斯大学奥斯汀分校人工智能实验室主任雷蒙德·穆尼说:”学术工作正在转向分析公司推出的模型,深入挖掘它们的弱点。”

  这包括开发更严苛的测试,以评估大型语言模型(LLM)的视觉、数学甚至道德推理能力,这些模型为聊天机器人提供了支持。最新的测试之一是 “Google-Proof Q&A Benchmark(GPQA)”,测试由纽约大学机器学习研究员大卫·莱恩等人组成的团队于去年开发完成。

  GPQA 由 400 多道选择题组成,难度很大,博士水平的学者有 65% 的时间能正确回答其领域的问题。同样是这些学者,在尝试回答自己领域以外的问题时,尽管在测试期间可以上网,但得分率只有 34%(随机选择答案的得分率为 25%)。

  截至去年,人工智能系统的得分率约为 30-40%。

  莱恩说,今年,位于加利福尼亚州旧金山的人工智能公司 Anthropic 最新发布的聊天机器人 Claude 3 的得分率约为 60%:”这种进步速度让很多人感到震惊,包括我在内。要制定一个能存活几年以上的基准测试是相当困难的。”

  业务成本

  随着性能的飞速提升,成本也在不断增加。据报道,GPT-4训练成本高达 7800 万美元。谷歌 12 月推出的聊天机器人 “双子座 Ultra “耗资 1.91 亿美元。许多人对这些系统的能源消耗,以及冷却运行这些系统的数据中心所需的水量表示担忧。

  马斯雷说:”这些系统令人印象深刻,但效率也非常低。”

  人工智能模型的成本和能耗很高,这在很大程度上是因为让现有系统变得更好的主要方法之一,就是变得更大。这意味着要在越来越大的文本和图片库中进行训练。

  人工智能指数报告指出,一些研究人员现在担心训练数据会耗尽。报告称,去年,非营利性研究机构 Epoch 预计,最快可能在今年耗尽高质量的语言数据。不过,最新分析表明2028 年更有可能性。

  人们对如何构建和使用人工智能的伦理问题也越来越关注。

  马斯雷说:”无论是在美国还是在全球范围内,人们对人工智能的担忧都比以往任何时候都要强烈。现在有些国家对人工智能非常兴奋,有些国家则非常悲观。”

  报告指出,在美国,监管机构的兴趣急剧上升。2016年,美国只有一项法规提到人工智能,而去年则有25项。马斯雷说,”2022年之后,政策制定者提出的人工智能相关法案数量将大幅飙升”。

  监管行动越来越注重促进负责任地使用人工智能。马斯雷说,虽然目前出现了一些基准测试,可以对人工智能工具的真实性、偏见甚至好感度等指标进行评分,但并非所有人都在使用相同的模型,这就很难进行交叉比较。

   0


24小时新闻排行榜 更多>>
1 今夜,终于等来大好消息
2 要大转弯?习借他之口放风
3 人心已变!需要重视北大最新调查
4 传三中全会再收割 中产返贫势加剧
5 借崔天凯之口,习近平要转弯?

48小时新闻排行榜 更多>>
1 板上钉钉!习主席这个锅肯定是甩不掉了
2 习近平一经宣布,立即炸锅
3 “妈妈坐高铁,下车发现屁股后面湿了”
4 今夜,终于等来大好消息
5 北约峰会下狠手 给北京准备了这四剂猛药
6 7年来Costco首度上调会员年费 一口气上涨
7 长江上游出现洪水 三峡水库终于撑不住了
8 日本媳妇吐槽中国老公 引发47万网友共鸣
9 要大转弯?习借他之口放风
10 啥意思?《解放军报》罕见痛骂部队领导层
热门专题
1
巴黎奥运
6
中美冷战
11
中国爆雷
2
三中全会
7
乌克兰战争
12
李尚福出事
3
美国大选
8
中共两会
13
秦刚失踪
4
万维专栏
9
台湾大选
14
火箭军悬案
5
以哈战争
10
李克强猝逝
15
台海风云
一周博客排行 更多>>
1 曾华
2 中美关系态势格局 阿妞不牛
3 身边的朋友,最近有几对离婚了 平等性
4 开明形象惹猜忌 习近平剑指汪 胡亥
5 冬天的童话 㨗克篇(四 野狼巴克
6 撕下中共执政的最后一块合法性 思芦
7 回了一趟北京(4)杂谈(1) 芨芨草
8 漫谈过度自信导致中国内外交困 中国社会经
9 回复 阿妞不牛:后中共时代的 遍地是贪官
10 追捧川普与基督徒信仰的错位, 厨房里的冰
一周博文回复排行榜 更多>>
1 中美关系态势格局 阿妞不牛
2 回复 阿妞不牛:后中共时代的 遍地是贪官
3 太上总统为了败家子不惜对抗全 must
4 宪法的解释权应该归谁? suoliweng
5 撕下中共执政的最后一块合法性 思芦
6 中美对比:房贷断供后 马黑
7 作孽啊,埋没毕汝谐事小,拯救 汝谐毕
8 华人与美加政治——美国总统“ 高天阔海
9 从马教授的演讲看共军梧桐台湾 随意生活
10 北约正式开启亚太扩容 随意生活
关于本站 | 广告服务 | 联系我们 | 招聘信息 | 网站导航 | 隐私保护
Copyright (C) 1998-2024. Creaders.NET. All Rights Reserved.