OpenAI 最新成果:让 AI 「自我解剖」,结果人类更怕了
大自然创造人类来理解自然,人类创造 AI 来理解自己。
作者 | Founder Park
就算在新产品满天飞,商业文明正在被 AI 重建的当下,我们仍然不知道,这些令人惊叹的技术是如何运作的。
【资料图】
AI,语言模型,它是个黑箱(black box),人类无法理解,我们甚至不知道怎样研究才能够理解。
但如果,研究这个黑箱的不是人类,而是 AI 自己呢?
这是一个令人好奇但又非常危险的想法。因为你甚至不知道,这一研究方法产生的结果,是否会彻底颠覆多年来人类对人脑和 AI 的理解。
但是有人这样做了。几小时前,OpenAI 发布了最新的研究成果,他们用 GPT-4 解释 GPT-2 的行为,获得了初步的成果。
毫不夸张地说,人们震惊极了:「求求你们让它离觉醒远点吧!」
「AI 理解 AI,然后很快,AI 训练 AI,然后再过几年,AI 创造新的 AI。」
但客观来说,学术界为之感到兴奋:「疯了,OpenAI 刚刚搞定了可解释性问题。」
人与机器之间是 GPT-4
OpenAI 刚刚在官网发布博客文章《语言模型可以解释语言模型中的神经元》(Language models can explain neurons in language models)。
简单来说,他们开发了一个工具,调用 GPT-4 来计算出其他架构更简单的语言模型上神经元的行为,这次针对的是 GPT-2,发布于 4 年前的开源大模型。
大模型(LLM)和人脑一样,由「神经元」(neurons)组成,这些神经元会观察文本中的特定规律,进而影响到模型本身生产的文本。
举例来说,如果有一个针对「漫威超级英雄」的神经元,当用户向模型提问「哪个超级英雄的能力最强」时,这个神经元就会提高模型在回答中说出漫威英雄的概率。
OpenAI 开发的工具利用这种规则制定了一套评估流程。
开始之前,先让 GPT-2 运行文本序列,等待某个特定神经元被频繁「激活」的情况。
然后有三个评估步骤:
第一步,让 GPT-4 针对这段文本,生成解释。比如在下面的案例中,神经元主要针对漫威内容。GPT-4 接收到文本和激活情况后,判断这与电影、角色和娱乐有关。
第二步,用 GPT-4模拟这个 GPT-2 的神经元接下来会做什么。下图就是 GPT-4 生成的模拟内容。
最后一步,对比评估打分。对比 4 代模拟神经元和 2 代真实神经元的结果,看 GPT-4 猜的有多准。
通过这样的方法,OpenAI 对每个神经元的行为作出了初步的自然语言解释,并对这种解释和实际行为的匹配程度进行了评分。
最终他们对 GPT-2 中 307200 个神经元全部进行了解释,这些解释汇编成数据集,与工具代码一起在 GitHub 上发布。
超越语言的机器人类无法理解的机器
据 OpenAI 在博客文章中表示,目前 GPT-4 生成的解释还不完美,尤其要解释比 GPT-2 更大的模型时,表现效果很差,「可能是因为后面的 layer 更难解释」。
对于 GPT-2 解释的评分大多也非常低,仅有 1000 个左右的解释获得了较高的评分(0.8 以上)。
OpenAI 可拓展对齐团队的 Jeff Wu 表示,「大多数解释的得分很低,或者无法解释实际神经元那么多的行为。比如,许多神经元以一种难以判断的方式保持活跃,它们在五六件事上保持激活,但却没有可以辨别的模式。有时候存在明显的模式,但 GPT-4 有无法找到它。」
虽然现阶段成绩不好,但是 OpenAI 却比较有信心,他们认为可以使用机器学习的方式提高 GPT-4 产出解释的能力。
比如通过反复产出解释,并根据激活情况修改解释;或者使用更大的模型作出解释;以及调整解释模型的结构等等。
OpenAI 还提到,这一方法目前还有很多局限性。
使用简短的自然语言进行解释,也许并不匹配神经元可能非常复杂的行为,不能简洁地进行描述。神经元可能会具备多个不同概念,也可能,会具备一个人类没有语言描述甚至无法理解的概念。
最终 OpenAI 希望能够自动化找到并解释能够实现复杂行为的整个神经回路,而目前的方法只解释了神经元的行为,并没有涉及下游影响。
解释了神经元的行为,但没有解释产生这种行为的机制。这意味着即使是拿了高分的解释,也只能描述相关性。
整个过程是计算密集型的。
在论文中,OpenAI 表示:「语言模型可能代表了人类无法用语言表达的陌生概念。这可能是因为语言模型关心不同的事情,比如统计结构对下一个token预测任务有用,或者因为模型已经发现了人类尚未发现的自然的抽象,例如在不同领域的类似概念家族。」
它把 LLM 的这种属性,称为Alien Feature,在生物领域翻译为「异类特征」。
Founder Park 微信后台回复「解释神经元论文」,获取论文链接和中英对照 PDF 链接(机翻)。
把对齐问题
也交给 AI
「我们正试图开发预测『AI 系统会出现什么问题』的方法,」OpenAI 可解释性团队负责人 William Saunders 对媒体说,「我们希望能够真正做到,让这些模型的行为和生产的回答是可以被信任的。」
Sam Altman 也转发博客文章称:GPT-4 对 GPT-2 做了一些可解释性工作。
可解释性(interpretability)是机器学习的研究子领域,指的是对模型的行为有清晰的理解和对模型结果的理解能力。
简单来说,目的就是解释机器学习模型「如何做到」(how)。
2019 年开始,可解释性成为机器学习的重要领域,相关研究有助于开发人员对模型进行优化和调整。针对当下 AI 模型大规模应用时,亟需解决的可信度(trust)、安全性(safety)和决策参考(decision making)等问题。
如果我们不知道 AI 是如何作出决策的,始终把它当做一个黑箱,那么就算 AI 在各种场景下表现得再完美,也无法解决部分人类的信任问题。
OpenAI 这次使用 GPT-4 来解决可解释性的问题,就是希望能够使用自动化的方式,让机器完成 AI 研究。
「这是我们对齐研究的第三支柱的一部分:我们希望自动化对齐研究。令人期待的是,这一方向能让它(对齐)与 AI 发展的步伐相匹配。」
在 2022 年夏天,OpenAI 曾发布文章《我们做对齐研究的方法》(Our approach to alignment research)。
文中提到,宏观来看,OpenAI 的对齐研究将由三大支柱支撑:
1、利用人工反馈训练 AI
2、训练 AI 系统协助人类评估
3、训练 AI 系统进行对齐研究
「语言模型非常适合自动化对齐研究,因为它们通过阅读互联网『预装』了大量有关人类价值观的知识和信息。开箱即用,它们不是独立代理,因此不会在世界上追求自己的目标。」
太快了
连认知都范式革命了
虽然 OpenAI 本意很好,但是这样的研究成果着实吓坏了网友。
OpenAI 的推文下梗图横飞,有不少人在认真地建议 OpenAI 搞慢点。
「用我们不理解的东西,解释另一个我们不理解的东西,这合理吗?」
「护栏都被你撤了」
「这太迷人了,但也让我感到极度不适。」
「自然创造了人类来理解自然。我们创造了 GPT-4 来理解自己。」
「我们要怎么判断解释者是好的?这就像... 谁监督着监督者?」(who watches the watchers)
还有人看到了更深的一层:
「大模型很快就能比人类更好地解释他们自己的思维过程,我想知道我们未来要创造多少新的词汇,来描述那些 AI 发现的概念(概念本身也不准确)?我们还没有一个合适的词描述它们。或者,我们是否会觉得这些概念有意义?它们又能教会我们如何认识自己呢?」
另一网友回应道:「人类本身对自己行为的解释,大多是谎言、捏造、幻觉、错误的记忆、事后推理,就像 AI 一样。」
关注 Founder Park,我们将持续推出更全面更深度的大模型相关讨论与报道。
如果你有投身大模型创业的想法,欢迎加入我们的大模型相关领域交流群,来一起探讨大模型时代创业的共识和认知。
你觉得高校应该禁止学生使用ChatGPT吗?
本周三(5月10日)12:30,我们邀请到一土教育联合创始人李一诺,Tubi 技术副总裁陈天,教育行业观察者、前教育媒体主编焦子航来到极客公园「开始连接」直播间,和大家聊聊ChatGPT与AGI的发展,给教育敲响了怎样的警钟。
点击下方按钮立即预约,精彩直播不错过!
关键词:
上一篇:美媒:美国通胀潜在指标居高不下 通胀压力或将持续 报道
下一篇:最后一页
- 广州科技活动周进入预热 明日正式启动300多场主题活动接踵而来
- 深化重点领域信用建设 广州正式出台新型监管机制实施方案
- 女童不慎掉入20米深井 18岁小姨三次下井成功营救
- 西安3个区域12月28日起每日开展全员核酸 官方提倡民众居家健身
- 浙江乐清一核酸检测结果异常人员 复采复检为阴性
- 浙江本轮疫情报告确诊病例490例 提倡“双节”非必要不出省
- 西安警方通报6起涉疫违法案件
- 西安新一轮核酸筛查日检测能力达160万管
- 西安市累计报告本土确诊病例811例
- 重庆曝光4起违反中央八项规定精神典型问题 警示党员干部清新过节
-
云南清水河边检站查获走私玉石和玉石毛料65公斤
中新网临沧12月28日电 (徐媛 雷珍玉)记者28日从云南清水河出入境边防检查站获悉,该站近日在清水河口岸查获一起利用货车藏匿走私玉石
-
让农民工不再忧“薪” 湖南祁阳高效根治欠薪
中新网永州12月28日电 (刘志军 周盛波)“感谢你们,没有你们不辞辛苦、多次讨要,我们肯定拿不着钱,这个年肯定过不好。”27日,农民
-
浙江缙云九旬老党员20多年义务为乡村老人理发
中新网丽水12月28日电(范宇斌 蒋依笑)在浙江省丽水市缙云县七里乡大园村周坎头自然村,今年90岁的陶岳贵在年近古稀时拾起剃刀,20多年
-
疫情下的边城东兴:停摆的城 夜行的人
(抗击新冠肺炎)疫情下的边城东兴:停摆的城 夜行的人 中新社广西东兴12月28日电 题:疫情下的边城东兴:停摆的城 夜行的人
-
长江流域生态管护员:我与长江的十年之约
中新网江西彭泽12月28日电 (袁昕 记者 王昊阳)“这是我今天第三次巡查了。”穿着新制服的长江流域生态管护员吴成年站立船头,在
-
吉林查干湖冬捕启幕 头鱼拍出2999999元
中新网松原12月28日电 (石洪宇 谭伟旗 薛栋栋)中国查干湖第二十届冰雪渔猎文化旅游节28日开幕,数万名游客现场直击鱼跃湖面的盛况。
-
甘肃中药炮制师研习古法30载:掌心留痕,翻烂资料书
中新网兰州12月28日电 (张婧)从事中药饮片加工技艺30年的张良,右手掌心有一条老疤痕,“20年前跟着老师傅学习中药材性状鉴别,传统方
-
广东启用涉疫风险人员排查12320专号
中新网广州12月28日电 (记者 蔡敏婕)广东省28日正式启用涉疫风险人员排查12320专号。即日起,涉疫风险人员来(返)粤前可在“粤省事”
-
武汉协和医院开设互联网儿童医学中心
中新网武汉12月28日电 (聂文闻 彭锦弦 陈有为)记者28日从华中科技大学附属协和医院(以下简称“武汉协和医院”)获悉,该院在湖北省首
-
四川:力争三年完成638个历史遗留矿山生态修复
中新网成都12月28日电 (杨予頔)28日,四川省自然资源厅发布消息称,近日,四川省自然资源厅印发了《四川省历史遗留矿山生态修复三年行
X 关闭
北京试点全龄友好住宅项目 老年家庭购房首付最低35%
西安新增本土确诊病例150例 详情发布
广东最低气温跌至-6℃现冰挂 部分道路及海上交通受影响
“2022科学跨年系列活动”启动 提高公众对科学类流言“免疫力”
珠科院多举措助力大湾区抗旱防咸保供水
X 关闭
美媒:美国通胀潜在指标居高不下 通胀压力或将持续 报道
总投资净利润率计算公式 净利润率计算公式_世界热推荐
热讯:恒立实业因信息披露违规被深圳证券交易所采取监管措施
葛玉芳_关于葛玉芳的简介
5.5精密膛线管 小口径精密管膛线-热点聚焦