OpenAI发布炸裂研究：让AI解释AI黑箱，人类无法理解，语言无法描述-华南银行网

当前位置：首页 >资讯 > 正文

OpenAI发布炸裂研究：让AI解释AI黑箱，人类无法理解，语言无法描述

2023-05-10 17:24:11 富途牛牛

来源：极客公园-Founder Park

(相关资料图)

就算在新产品满天飞，商业文明正在被 AI 重建的当下，我们仍然不知道，这些令人惊叹的技术是如何运作的。

AI，语言模型，它是个黑箱（black box），人类无法理解，我们甚至不知道怎样研究才能够理解。

但如果，研究这个黑箱的不是人类，而是 AI 自己呢？

这是一个令人好奇但又非常危险的想法。因为你甚至不知道，这一研究方法产生的结果，是否会彻底颠覆多年来人类对人脑和 AI 的理解。

但是有人这样做了。几小时前，OpenAI 发布了最新的研究成果，他们用 GPT-4 解释 GPT-2 的行为，获得了初步的成果。

毫不夸张地说，人们震惊极了：「求求你们让它离觉醒远点吧！」

「AI 理解 AI，然后很快，AI 训练 AI，然后再过几年，AI 创造新的 AI。」

但客观来说，学术界为之感到兴奋：「疯了，OpenAI 刚刚搞定了可解释性问题。」

人与机器之间，是 GPT-4

OpenAI 刚刚在官网发布博客文章《语言模型可以解释语言模型中的神经元》（Language models can explain neurons in language models）。

简单来说，他们开发了一个工具，调用 GPT-4 来计算出其他架构更简单的语言模型上神经元的行为，这次针对的是 GPT-2，发布于 4 年前的开源大模型。

大模型（LLM）和人脑一样，由「神经元」（neurons）组成，这些神经元会观察文本中的特定规律，进而影响到模型本身生产的文本。

举例来说，如果有一个针对「漫威超级英雄」的神经元，当用户向模型提问「哪个超级英雄的能力最强」时，这个神经元就会提高模型在回答中说出漫威英雄的概率。

OpenAI 开发的工具利用这种规则制定了一套评估流程。

开始之前，先让 GPT-2 运行文本序列，等待某个特定神经元被频繁「激活」的情况。

然后有三个评估步骤：

第一步，让 GPT-4 针对这段文本，生成解释。比如在下面的案例中，神经元主要针对漫威内容。GPT-4 接收到文本和激活情况后，判断这与电影、角色和娱乐有关。

第二步，用 GPT-4 模拟这个 GPT-2 的神经元接下来会做什么。下图就是 GPT-4 生成的模拟内容。

最后一步，对比评估打分。对比 4 代模拟神经元和 2 代真实神经元的结果，看 GPT-4 猜的有多准。

通过这样的方法，OpenAI 对每个神经元的行为作出了初步的自然语言解释，并对这种解释和实际行为的匹配程度进行了评分。

最终他们对 GPT-2 中 307200 个神经元全部进行了解释，这些解释汇编成数据集，与工具代码一起在 GitHub 上发布。

超越语言的机器，人类无法理解的机器

据 OpenAI 在博客文章中表示，目前 GPT-4 生成的解释还不完美，尤其要解释比 GPT-2 更大的模型时，表现效果很差，「可能是因为后面的 layer 更难解释」。

对于 GPT-2 解释的评分大多也非常低，仅有 1000 个左右的解释获得了较高的评分（0.8 以上）。

OpenAI 可拓展对齐团队的 Jeff Wu 表示，「大多数解释的得分很低，或者无法解释实际神经元那么多的行为。比如，许多神经元以一种难以判断的方式保持活跃，它们在五六件事上保持激活，但却没有可以辨别的模式。有时候存在明显的模式，但 GPT-4 有无法找到它。」

虽然现阶段成绩不好，但是 OpenAI 却比较有信心，他们认为可以使用机器学习的方式提高 GPT-4 产出解释的能力。

比如通过反复产出解释，并根据激活情况修改解释；或者使用更大的模型作出解释；以及调整解释模型的结构等等。

OpenAI 还提到，这一方法目前还有很多局限性。

使用简短的自然语言进行解释，也许并不匹配神经元可能非常复杂的行为，不能简洁地进行描述。神经元可能会具备多个不同概念，也可能，会具备一个人类没有语言描述甚至无法理解的概念。

最终 OpenAI 希望能够自动化找到并解释能够实现复杂行为的整个神经回路，而目前的方法只解释了神经元的行为，并没有涉及下游影响。

解释了神经元的行为，但没有解释产生这种行为的机制。这意味着即使是拿了高分的解释，也只能描述相关性。

整个过程是计算密集型的。

在论文中，OpenAI 表示：「语言模型可能代表了人类无法用语言表达的陌生概念。这可能是因为语言模型关心不同的事情，比如统计结构对下一个token预测任务有用，或者因为模型已经发现了人类尚未发现的自然的抽象，例如在不同领域的类似概念家族。」

它把 LLM 的这种属性，称为 Alien Feature，在生物领域翻译为「异类特征」。

把对齐问题，也交给 AI

「我们正试图开发预测『AI 系统会出现什么问题』的方法，」OpenAI 可解释性团队负责人 William Saunders 对媒体说，「我们希望能够真正做到，让这些模型的行为和生产的回答是可以被信任的。」

Sam Altman 也转发博客文章称：GPT-4 对 GPT-2 做了一些可解释性工作。

可解释性（interpretability）是机器学习的研究子领域，指的是对模型的行为有清晰的理解和对模型结果的理解能力。

简单来说，目的就是解释机器学习模型「如何做到」（how）。

2019 年开始，可解释性成为机器学习的重要领域，相关研究有助于开发人员对模型进行优化和调整。针对当下 AI 模型大规模应用时，亟需解决的可信度（trust）、安全性（safety）和决策参考（decision making）等问题。

如果我们不知道 AI 是如何作出决策的，始终把它当做一个黑箱，那么就算 AI 在各种场景下表现得再完美，也无法解决部分人类的信任问题。

OpenAI 这次使用 GPT-4 来解决可解释性的问题，就是希望能够使用自动化的方式，让机器完成 AI 研究。

「这是我们对齐研究的第三支柱的一部分：我们希望自动化对齐研究。令人期待的是，这一方向能让它（对齐）与 AI 发展的步伐相匹配。」

在 2022 年夏天，OpenAI 曾发布文章《我们做对齐研究的方法》（Our approach to alignment research）。

文中提到，宏观来看，OpenAI 的对齐研究将由三大支柱支撑：

1、利用人工反馈训练 AI

2、训练 AI 系统协助人类评估

3、训练 AI 系统进行对齐研究

「语言模型非常适合自动化对齐研究，因为它们通过阅读互联网『预装』了大量有关人类价值观的知识和信息。开箱即用，它们不是独立代理，因此不会在世界上追求自己的目标。」

太快了，连认知都范式革命了

虽然 OpenAI 本意很好，但是这样的研究成果着实吓坏了网友。

OpenAI 的推文下梗图横飞，有不少人在认真地建议 OpenAI 搞慢点。

「用我们不理解的东西，解释另一个我们不理解的东西，这合理吗？」

「护栏都被你撤了」

「这太迷人了，但也让我感到极度不适。」

「自然创造了人类来理解自然。我们创造了 GPT-4 来理解自己。」

「我们要怎么判断解释者是好的？这就像... 谁监督着监督者？」（who watches the watchers)

还有人看到了更深的一层：

「大模型很快就能比人类更好地解释他们自己的思维过程，我想知道我们未来要创造多少新的词汇，来描述那些 AI 发现的概念（概念本身也不准确）？我们还没有一个合适的词描述它们。或者，我们是否会觉得这些概念有意义？它们又能教会我们如何认识自己呢？」

另一网友回应道：「人类本身对自己行为的解释，大多是谎言、捏造、幻觉、错误的记忆、事后推理，就像 AI 一样。」

关键词：

相关新闻

OpenAI发布炸裂研究：让AI解释AI黑箱，人类无法理解，语言无法描述

热点评！诺普信：该类属于企业内部商业信息，不便在此披露

每日焦点！辽宁队先拔得头筹也是把主场的优势给抢回来了

债市行情速递丨10年期国债期货主力合约收涨0.14%|天天新视野

详解76人新三巨头：有望打破22年魔咒马大哈最强武器曝光|环球快报

韩国五家车企因制造缺陷将召回超22万辆汽车

美妆｜欧莱雅中国重推科技美发产品-当前快报

【世界新要闻】轮休是变相裁员?悦达起亚回应:全面改革开启信号

讯息：浙江一离异女子在网上官宣与军人闪婚，民警识别是骗局后劝其分手

中小瓶装水企业如何运营3元水？

北京邮电大学成立卓越工程师学院全球快报

天天动态:雨过天晴一键还原快捷键_雨过天晴极速恢复

铜峰电子5月10日盘中涨停|天天热推荐

世界视讯！“零酒驾”宣传活动魏秋月任形象大使

世界热点评！胜利精密（002426）5月9日主力资金净买入2813.94万元

世界视讯！万朗磁塑：公司为进一步扩大发展，形成基建、固定资产投资增加；为发展新业务增加股权投资

世界快资讯：【甘快看】庆阳：工业经济绘出“昂扬曲线”

名IP亮相 “老朋友”新故事值得期待电影市场即将踏入“大片季”|每日快播

当前速讯：姬无双电视剧（姬无双）

施托尔滕贝格_关于施托尔滕贝格介绍_全球微动态

亿元级项目纷至沓来拼经济萧山瓜沥“三招”突围制胜全球观点

affect3d游戏 affect3d 热头条

今日匹诺曹因为什么鼻子变长了_匹诺曹冈布奥鼻子长度资讯推荐

《寒门母子》第三十四章幸好长得安全

全球播报:一颗宽200米的小行星，正以时速8.2万公里的速度靠近我们，本月24日距地球最近

吉锐科技冲刺创业板上市：计划募资11亿元，客户集中度相对较高

焦点要闻：美股异动|西太平洋银行大跌9%个股隐含波动率下滑近45%

全球聚焦：非诚勿扰出场背景音乐_非诚勿扰里的音乐

国米重铸铁血防守，AC米兰失去利爪！欧冠米兰德比，胜利天平倾斜

根号怎么去绝对值符号_关于去绝对值和根号|世界报道

天天视讯！血脂健康管理、T台走秀造型诀窍……广州老年大学5月新课来袭

曼联跟队：曼联没向德赫亚保证一门位置，并提供减薪合同|环球快看

环球观察：6月15日亮相沃尔沃EX30专利图正式公布

ST冠福：公司股票自2023年5月11日（星期四）开市起撤销其他风险警示全球看点

电磁波的传播速度与什么相同电磁波的传播速度_全球速看

大行评级|大摩：相信青啤股价30日内将升予目标价85港元天天短讯

OpenAI发布炸裂研究：让AI解释AI黑箱，人类无法理解，语言无法描述

就业

国台办：民进党当局阻挠限制两岸正常交流合作，倒行逆施不得人心国台办：“以武拒统”只会将台湾推向灾难国台办：台湾是中国的一部分，解放军开展有关军事行动天经地义国台办：统一是所有中华儿女的共同愿望国台办回应“台独”顽固分子制裁名单：跳得越高，摔得越重

理论

当前位置：首页 >资讯 > 正文

这个波卡钱包可以让你玩转 NFT、XCM、Staking 和 Crowdloan｜SubWallet 钱包体验报告_世界要闻

消息！韩国“孤独死亡”人数达五年最高中年和老年男性风险最大

环球新消息丨国电南自：国内首套，全栈国产化在华电实现新突破

中伟股份: 战略配售股份上市流通提示性公告

每日热门：广州：近期发热门诊日均就诊5万人，正扩大ICU床位和抗原试剂产能

世界播报:教育板块早盘再度走强，截至发稿，光正教育(06068.HK)涨26.23%，报0.385港元

滴水贷贷款逾期45年延迟还款会上征信吗

数读进博会 | 贸易投资对接会收获满满！超千家中外企业达成200余项合作意向

开放，激活世界经济一池春水——第四届进博会成果丰硕

泰国孔敬大学孔子学院“本土中文教师高级研修班”结业

中国驻美大使秦刚：希望旅美侨胞发挥桥梁作用，促进中美友好合作

中美两国领导人向美中关系全国委员会年度晚宴致贺信

南水北调大事记为你解锁跨越半个世纪的超级工程

厚植创新沃土引才“汇盐”

当前位置：首页 >资讯 > 正文

这个波卡钱包可以让你玩转 NFT、XCM、Staking 和 Crowdloan｜SubWallet 钱包体验报告_世界要闻

消息！韩国“孤独死亡”人数达五年最高 中年和老年男性风险最大

环球新消息丨国电南自：国内首套，全栈国产化在华电实现新突破

中伟股份: 战略配售股份上市流通提示性公告

每日热门：广州：近期发热门诊日均就诊5万人，正扩大ICU床位和抗原试剂产能

世界播报:教育板块早盘再度走强，截至发稿，光正教育(06068.HK)涨26.23%，报0.385港元

滴水贷贷款逾期45年延迟还款会上征信吗

数读进博会 | 贸易投资对接会收获满满！超千家中外企业达成200余项合作意向

开放，激活世界经济一池春水——第四届进博会成果丰硕

泰国孔敬大学孔子学院“本土中文教师高级研修班”结业

中国驻美大使秦刚：希望旅美侨胞发挥桥梁作用，促进中美友好合作

中美两国领导人向美中关系全国委员会年度晚宴致贺信

南水北调大事记 为你解锁跨越半个世纪的超级工程

厚植创新沃土引才“汇盐”

消息！韩国“孤独死亡”人数达五年最高中年和老年男性风险最大

南水北调大事记为你解锁跨越半个世纪的超级工程