OpenAI 公开破解 GPT-4 思维的新方法,Ilya 也参与了

发布日期:2024-08-21 24:24 8天前

来源类型:萌神木木 | 作者:鲁思·马德利

【澳门一肖一码100准确】 【下载澳彩图库最新版安装苹果】 【澳门六最新结果2024年】 【澳门142期结果是多少】 【2024澳门天天开彩】 【86949.cσm查询】 【澳门结果2020年号码】 【2024澳门天天六开彩免费资料】 【2024澳门记录查询表下载】 【澳门码结果今晚调整时间】 【澳门现场直播结果查询表最新版】 【澳门直播下载2023软件】 【2024澳彩管家婆资料传真】

OpenAI 研究如何破解 GPT-4 思维,公开超级对齐团队工作,Ilya Sutskever 也在作者名单之列。

该研究提出了改进大规模训练疏自编码器的方法,并成功将 GPT-4 的内部表征解构为 1600 万个可理解的特征。由此,复杂语言模型的内部工作变得更加可理解。

其实,早在 6 个月前,研究就已经开始进行了:

OpenAI 将其公开后,超级对齐团队成员、论文一作前来转发分享:

我们引入了一种基于 TopK 激活函数的新稀疏自编码器训练技术栈,消除了特征缩减问题,并允许直接设置 L0。

我们发现这种方法在均方误差 / L0 边界上表现良好。即使在 1600 万的规模下,也几乎没有失活的潜在单元(latent)。

同样在作者名单里的、此前在 OpenAI 超级对齐团队的 Ilya 同盟 Jan Leike(就是从 OpenAI 愤而离职刚刚加入 Anthropic 的 RLHF 发明者之一)也表示:

这是一项重大的进步!稀疏自编码器是目前用来真正理解模型内部思维的最好的方法。

更有意思的是,不久前 Anthropic 发了一项类似的工作。

成功从 Claude 3.0 Sonnet 的中间层提取了数百万个特征,为其计算过程中的内部状态提供了一个大致的概念性图。

于是有网友就开麦了,工作牛是牛,但 OpenAI 是不是有点太着急了,论文链接没有指向 Arxiv,分析似乎也没有那么深入。

是不是为了回应 Anthropic 的研究以及 Jan Leike 出走的事儿,谁知道呢?(doge)

回归正题,OpenAI 超级对齐团队是如何想法子破解 GPT-4 思维的?

在 OpenAI 新公布研究中再见 Ilya 的名字

目前,语言模型神经网络的内部工作原理仍是个“黑盒”,无法被完全理解。

为了理解和解释神经网络,首先需要找到对神经计算有用的基本构件。

然鹅,神经网络中的激活通常表现出不可预测和复杂的模式,且每次输入几乎总会引发很密集的激活。而现实世界中其实很稀疏,在任何给定的情境中,人脑只有一小部分相关神经元会被激活。

由此,研究人员开始研究稀疏自编码器,这是一种能在神经网络中识别出对生成特定输出至关重要的少数“特征”的技术,类似于人在分析问题时脑海中的那些关键概念

它们的特征展示出稀疏的激活模式,这些模式自然地与人类易于理解的概念对齐,即使没有直接的可解释性激励。

不过,现有的稀疏自编码器训练方法在大规模扩展时会面临重建与稀疏性权衡、latent 失活等问题。

在 OpenAI 超级对齐团队的这项研究中,他们推出了一种基于 TopK 激活函数的新稀疏自编码器(SAE)训练技术栈,消除了特征缩小问题,能够直接设定 L0(直接控制网络中非零激活的数量)。

该方法在均方误差(MSE)与 L0 评估指标上表现优异,即使在 1600 万规模的训练中,几乎不产生失活的潜在单元(latent)。

具体来看,他们使用 GPT-2 smallGPT-4 系列模型的残差流作为自编码器的输入,选取网络深层(接近输出层)的残差流,如 GPT-4 的 5/6 层、GPT-2 small 的第 8 层。

并使用之前工作中提出的基线 ReLU 自编码器架构,编码器通过 ReLU 激活获得稀疏 latent z,解码器从 z 中重建残差流。损失函数包括重建 MSE 损失和 L1 正则项,用于促进 latent 稀疏性。

然后,团队提出使用 TopK 激活函数代替传统 L1 正则项。TopK 在编码器预激活上只保留最大的 k 个值,其余清零,从而直接控制 latent 稀疏度 k。

不需要 L1 正则项,避免了 L1 导致的激活收缩问题。实验证明,TopK 相比 ReLU 等激活函数,在重建质量和稀疏性之间有更优的权衡。

此外,自编码器训练时容易出现大量 latent 永远不被激活(失活)的情况,导致计算资源浪费。

团队的解决方案包括两个关键技术:

将编码器权重初始化为解码器权重的转置,使 latent 在初始化时可激活。

添加辅助重建损失项,模拟用 top-kaux 个失活 latent 进行重建的损失。

如此一来,即使是 1600 万 latent 的大规模自编码器,失活率也只有 7%

团队还提出了多重 TopK 损失函数的改进方案,提高了高稀疏情况下的泛化能力,并且探讨了两种不同的训练策略对 latent 数量的影响,这里就不过多展开了。

为了证明该方法的可扩展性,团队训练了上述提到的一个具有 1600 万个 latent 的稀疏自编码器,并在 GPT-4 模型的激活上处理了 40 亿个 token。

在 GPT-4 激活上处理 40 亿 token

接下来,评估自编码器质量的关键在于提取出的特征是否对下游应用任务有用,而不仅仅是优化重建损失和稀疏性。

因此,团队提出了几种评估自编码器质量的新方法,包括:

实验发现,TopK 自编码器在下游损失上的改进幅度超过了重建 MSE 的改进。

探测损失随 latent 数量增加而改善,但在某些区间会先升后降。

此外,研究人员发现精确度和召回率在 latent 数量较大、稀疏度适中时最优。

TopK 模型相比 ReLU 模型有更高的召回率,能更好地压制虚假激活。

剔除稀疏性方面(见上图 6 b),团队发现自编码器 latent 的影响较为稀疏,远小于直接 ablating 残差流通道。但当稀疏度 k 过高时,影响的稀疏性会下降。

最后,论文一作表示稀疏自编码器的问题仍然远未解决,这项研究中的 SAE 只捕获了 GPT-4 行为的一小部分,即使看起来单义的 latent 也可能难以精确解释。而且,从表现优异的 SAE 到更好地理解模型的行为,还需要大量的工作。

关于这项研究的更多细节,感兴趣的家人可以查看原论文。

OpenAI 还公开发布了完整源代码和针对 GPT-2 的多个小规模自编码器模型权重。还发布了一个在线可视化工具,用于查看包括这个 1600 万 latent GPT-4 自编码器在内的多个模型的激活特征。

OpenAI 的:https://cdn.openai.com/ papers / sparse-autoencoders.pdf
Anthropic 的:https://transformer-circuits.pub/ 2024 / scaling-monosemanticity / index.html

参考链接:

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,所有文章均包含本声明。

【2024新澳门天天开好彩大全】 【2024年新奥门免费资料】 【澳门码结果今晚开什么好呢图片】 【澳门传真免费费资料1】 【新澳天天开奖资料大全三中三】 【新澳精准资料免费提供】 【2024澳门正版开奖结果】 【2024澳门结果出来直播】 【澳门码2021年22期】 【澳门现场记录今天结果】 【下载天天彩票366】 【新澳天天开奖资料大全最新54期】 【新澳门直播现场直播视频回放大全】 【澳门六开彩天天开奖结果生肖卡】

谁都渴望自己能够拥有一个好的运势,当一个人运势好的时候,很容易做成事情,如果运势不好的话,即便做了非常充分的准备,也很有可能导致失败。2022年对于所有人来说都是全新的机遇,那么,属牛人有着怎样的运势呢?

2022年属牛人整体运势

在过去一年中,由于本命年值太岁的影响,属牛人各方面的运势都受到波及,变化不定。进入2022年虎年,在两颗有利感情及事业发展的吉星拱照下,运势有所好运,有稳步上扬的趋势,属牛人为人笃定踏实,只要凡事脚踏实地,则有望度过令人鼓舞的年份,摆脱本命年的阴影。

事业

进入2022年,生肖牛的事业运势非常不错,在工作当中表现的很优秀,个人能力会有不小的提升。并且生肖牛贵人运势极好,命中还有一些吉星暗中帮助,很多工作都会顺利进行,不会出现太大的偏差与意外。

财运

财运方面,属牛人本年度的开支收入整体能维持在稳定状态,随着本命年的威压消失,因犯太岁破财带来的经济压力也有所缓解,尤其今年还有“天乙”吉星的帮助,人际关系理想,今年能行贵人运,工作方面能依靠人际关系带动而获得不少业绩正财,除了能获得金额庞大的生意机会外,更有机会从贵人手上获得全新客户,营业额直线上升,所以属牛人要好好利用自己的关系网,争取提升业绩。

感情

生肖牛在2022年的感情运势表现还算理想,尤其单身人士,在感情当中会有很好的收获。生肖牛属于重情重义之人,对感情的态度专注认真,恋爱中的小情侣在本年度能够在家人的祝福之下走进婚姻的殿堂,开始一段甜蜜的婚姻生活。

健康

经历了上一年本命影响的属牛人,今年健康方面的运势也稳定很多,能逐渐摆脱情绪化、小病不断的状态,能以更积极乐观的面貌去面对生活和工作;不管是身体上还是心理上,整个人所呈现出来的状态还是很不错的,但也不能因此而放松对身体的健康的管理,要继续保持良好的生活态度。

每个人的运势有好的一面,也会有相对差的一面,我们要正确看待自己的命运,不要总想着事事完美。

【2024澳门天天开好彩大全开奖记录】 【2024澳门天天开好彩免费】 【2024澳门记录 百度网盘】 【澳门现场直播2023记录表格】 【新澳天天开奖资料大全】 【2024年正版资料免费大全】 【224期澳门生肖表格】 【澳天天彩资料自动更新下载不了】 【2024新澳免费资料澳门钱庄】 【澳门今晚结果2024年8月】 【澳门二四六结果+记录4】 【新奥门特免费资料大全】 【澳门直播记录2023】 【2024天天开好彩大全正版】

评论

打开APP查看84条评论

Dussud

4天前

团队还提出了多重 TopK 损失函数的改进方案,提高了高稀疏情况下的泛化能力,并且探讨了两种不同的训练策略对 latent 数量的影响,这里就不过多展开了。

艾德里安·霍姆斯

6天前

而且,从表现优异的 SAE 到更好地理解模型的行为,还需要大量的工作。

武佳轩

4天前

实验证明,TopK 相比 ReLU 等激活函数,在重建质量和稀疏性之间有更优的权衡。

发表您的评论: