万维读者网 > 信息时代 > 正文

谷歌发现模型“领悟”现象：训练久了AI突然顿悟

www.creaders.net | 2023-08-13 13:03:25 量子位 | 0条评论 | 查看/发表评论

哪怕只有几十个神经元，AI也能出现泛化能力！

这是几个谷歌科学家在搞正经研究时，“不经意间”发现的新成果。

他们给一些很简单的AI模型“照了个X光”——将它们的训练过程可视化后，发现了有意思的现象：

随着训练时间增加，一些AI会从“死记硬背”的状态中脱离出来，进化出“领悟力”（grokking），对没见过的数据表现出概括能力。

这正是AI掌握泛化能力的关键。

基于此，几位科学家专门写了个博客，探讨了其中的原理，并表示他们会继续研究，试图弄清楚大模型突然出现强理解力的真正原因。

一起来看看。

并非所有AI都能学会“领悟”

科学家们先探讨了AI出现“领悟力”（grokking）的过程和契机，发现了两个现象：

一、虽然训练时loss会突然下降，但“领悟”并不是突然发生的，它是一个平滑的变化过程。

二、并非所有AI都能学会“领悟”。

先来看第一个结论。他们设计了一个单层MLP，训练它完成“数奇数”任务。

“数奇数”任务，指识别一串长达30位“0”“1”序列中的前3位是否有奇数个“1”。例如，在

000110010110001010111001001011中，前3位没有奇数个1；010110010110001010111001001011中，前3位有奇数个1。

在训练前期阶段，模型中各神经元的权重（下图中的热图）是杂乱无章的，因为AI不知道完成这一任务只需要看前3个数字。

但经过一段时间的训练后，AI突然“领悟了”，学会了只看序列中的前3个数字。具体到模型中，表现为只剩下几个权重会随着输入发生变化：

这个训练过程的目标被称之为最小化损失（提升模型输出准确率），采用的技术则被称之为权重衰减（防止模型过拟合）。

训练过程中，有一些权重与任务的“干扰数字”（30位序列的后27位）相关，下图可视化为灰色；有一些则与完成任务的“前3位数字”有关，下图可视化为绿色。

当最后一个灰色权重降到接近0，模型就会出现“领悟力”，显然这个过程不是突然发生的。

再来看第二个结论。不是所有AI模型都能学会“领悟”。

科学家们训练了1125个模型，其中模型之间的超参数不同，每组超参数训练9个模型。

最后归纳出4类模型，只有2类模型会出现“领悟力”。

如下图，“白色”和“灰色”代表学不会“领悟”的AI模型，“黄色”和“蓝色”代表能“领悟”的AI模型。

总结概括规律就是，一旦权重衰减、模型大小、数据量和超参数的设置不合适，AI的“领悟力”就有可能消失——

以权重衰减为例。如果权重衰减太小，会导致模型过拟合；权重衰减太大，又会导致模型学不到任何东西。

嗯，调参是门技术活……

了解现象之后，还需要探明背后的原因。

接下来，科学家们又设计了两个小AI模型，用它来探索模型出现“领悟力”、最终掌握泛化能力出现的机制。

更大的模型学会泛化的机制

科学家们分别设计了一个24个神经元的单层MLP和一个5个神经元的单层MLP，训练它们学会做模加法（modular addition）任务。

模加法，指(a + b) mod n。输入整数a和b，用它们的和减去模数n，直到获得一个比n小的整数，确保输出位于0~(n-1)之间。

显然，这个任务的输出是周期性的，答案一定位于0~66之间。

首先，给只有5个神经元的单层MLP一点“提示”，设置权重时就加入周期性（sin、cos函数）。

在人为帮助下，模型在训练时拟合得很好，很快学会了模加法。

然后，试着“从头训练”具有24个神经元的单层MLP，不特别设置任何权重。

可以看到，训练前期，这只MLP模型的权重（下面的热图）变化还是杂乱无章的：

然而到达某个训练阶段后，模型权重变化会变得非常规律，甚至随着输入改变，呈现出某种周期性变化：

如果将单个神经元的权重拎出来看，随着训练步数的增加，这种变化更加明显：

这也是AI从死记硬背转变为具有泛化能力的关键现象：神经元权重随着输入出现周期性变化，意味着模型自己找到并学会了某种数学结构（sin、cos函数）。

这里面的频率（freq）不是固定的一个值，而是有好几个。

之所以会用到多个频率（freq），是因为24个神经元的单层MLP还自己学会了使用相长干涉（constructive interference），避免出现过拟合的情况。

不同的频率组合，都能达到让AI“领悟”的效果：

用离散傅里叶变换（DFT）对频率进行隔离，可以发现和“数奇数”类似的现象，核心只有几个权重起作用：

总结来看，就像前面提到的“数奇数”任务一样，“模加法”实验表明，参数量更大的AI也能在这个任务中学会“领悟”，而这个过程同样用到了权重衰减。

从5个神经元到24个神经元，科学家们成功探索了更大的AI能学习“领悟”的机制。

接下来，他们还计划将这种思路套用到更大的模型中，以至于最后能归纳出大模型具备强理解力的原因。

不仅如此，这一成果还有助于自动发现神经网络学习算法，最终让AI自己设计AI。

团队介绍

撰写博客的作者来自谷歌的People + AI Research（PAIR）团队。

这是谷歌的一个多学科团队，致力于通过基础研究、构建工具、创建框架等方法，来研究AI的公平性、可靠性等。

一句话总结就是，让“AI更好地造福于人”。

0

相关新闻

热议：10大最易被AI淘汰职业！第一名超意外	辉达下一个“万亿级美元商机”，来了
比DeepSeek还具威胁性！这家中国AI公司引发关注	2名中国AI人才高调加入辉达晒与黄仁勋合影
跟谷歌、微软拼了 OpenAI将推AI版Office	AI学会撒谎与威胁？专家忧发展失控
OpenAI开始租用Google芯片	逮住OpenAI猛薅 Meta又挖走4位知名研究人员
“机器人胶囊” 震撼世界吞下能无痛检查胃	软银拼当超级AI领头羊
川普高招果然有用 DeepSeek新模型难产	英伟达夺回全球市值王黄仁勋身价暴增
人类会与AI相爱吗？	扎克伯格开出$1亿天价挖人亲发邀请被误为诈骗
Tesla试运营无人出租车安全员陪同每次$4.2	华为鸿蒙6来了众多关键能力升级全面拥抱AI
全球扫地机器人5强中国企业包办前4	用人脑细胞跑AI，我快搞不懂这个世界了
马斯克：超级智能最晚明年到	马斯克重磅演讲：AI革命袭来超级智能最晚明年

“人工智能AI”

当前新闻共有0条评论

分享到：

评论前需要先登录或者注册哦

全部评论

暂无评论上一页下一页

实用资讯

抗癌明星组合多年口碑保证！天然植物萃取有效对抗癌细胞
中老年补钙必备，2星期消除夜间抽筋、腰背疼痛，防治骨质疏松立竿见影

24小时新闻排行榜

1	空姐坦白：机组人员在飞行中这样“发生性
2	重磅！川普放话，关税大消息
3	习近平8月下台？美前外交官细数可疑迹象
4	马尔代夫快破产了！栽在中国手里
5	川普承认对中国采取这项行动：这是个肮脏的

48小时新闻排行榜

1	比恒大还多1.14万亿的巨头，倒了
2	普京沉痛宣布:我们被骗了
3	北京出了啥事？美前顶级情报头子发话
4	4年倒闭5万多家中国最暴利行业要彻底消
5	刚刚！美联储，突传重磅
6	哈梅内伊又装了一回，代价也来了
7	空姐坦白：机组人员在飞行中这样“发生性
8	重磅！川普放话，关税大消息
9	“全国一盘棋”重演？习近平的新时代
10	黄石公园野牛遭活活烫死许多游客亲眼目睹

热门专题

1 美伊冲突	6 俄乌战争	11 大S
2 以伊战争	7 万维专栏	12 洛杉矶大火
3 四中全会	8 何卫东	13 叙利亚
4 中美冷战	9 AI	14 苗华被抓
5 川普	10 中共两会	15 美国大选

一周博客排行

1	空前绝后：24岁的中共总书记及	赵大夫话室
2	俺吃错过药	阿妞不牛
3	人养金毛犬，我养白眼狼：伊朗	高伐林
4	回国避坑：既不能评论国内好坏	aoe2
5	走出中国城，走活中国人	解滨
6	中美空军相差多远？看运-20和C	弓长贝占郎
7	人死后灵魂还在吗？	骆驼
8	共产革命之前的上海和伊斯兰革	陈家梁子
9	为何黄左反川甚于反共？	蛇形刁手
10	习大大唱独角戏，听床师们情何	蛇形刁手

一周博文回复排行榜

1	人死后灵魂还在吗？	骆驼
2	俺吃错过药	阿妞不牛
3	文明、优雅、格局	体育老师
4	为何黄左反川甚于反共？	蛇形刁手
5	走出中国城，走活中国人	解滨
6	奇袭伊朗.高法裁决.外交内政.	木秀于林
7	2024回国：海南环岛游	马黑
8	人养金毛犬，我养白眼狼：伊朗	高伐林
9	相信固执己见可以治愈	施化
10	再反转：B-2只炸了个皮毛？	北栖


关于本站 \| 广告服务 \| 联系我们 \| 招聘信息 \| 网站导航 \| 隐私保护
Copyright (C) 1998-2025. Creaders.NET. All Rights Reserved.