Skip to content

看懂 Anthropic 的 Automated Alignment Researchers

https://www.anthropic.com/research/automated-alignment-researchers

这篇可以这样理解: Anthropic在试一件很具体的事——能不能让大模型自己帮做alignment研究,而不只是会写总结,而是真的能“提出想法、跑实验、看结果、继续迭代”, 文章标题里的两个关键词要先拆开

  • Automated Alignment Researchers (AAR) 指自动化的对齐研究员,本质上是给Claude 一套研究工具和实验环境
  • scale scalable oversight 指的是用模型去帮助解决未来如何监督更强模型的问题,它是在一个相对封闭、可量化的任务上测试模型能不能加速alignmnet研究

一、这篇文章在研究什么

核心问题其实有两个。第一,alignment 研究能不能也被 AI 加速。因为现在 frontier model 已经在帮人类做 coding、research、agent execution,那它能不能反过来参与“怎么让模型更对齐”这件事。第二,如果将来模型比人更强,人类怎么监督它。这就是 scalable oversight。文章里举的例子很直接:如果未来模型能写几百万行复杂代码,而人类根本看不完,那你怎么确认它没偏、没作弊、没偷偷做错事。这个问题本质上就是:弱监督者怎么监管强能力系统

所以他们没有直接去做“监督超人类智能”这种太虚的命题,而是找了一个 proxy,也就是weak-to-strong supervision。你可以把它想成一个缩小版实验:让一个比较弱的模型去“教”一个更强但还没完全调好的模型,然后看强模型能不能不仅学到弱模型的水平,还能利用这些弱信号把自己推到更高水平。如果这件事成立,就说明未来“弱人类/弱模型监督强模型”不是完全没可能。

二、weak-to-strong supervision

这个概念是全文关键。文章里的设定是:

  • 有一个strong base model,能力潜力更强,但还没 fine-tune 到最好
  • 有一个weak teacher model,能力明显更弱
  • 让弱模型提供“示范答案”或监督信号,去微调强模型
  • 最后看强模型调完后表现如何

按直觉,你会觉得:弱老师教强学生,学生最多也就学到老师水平。文章要测的就是,强模型能不能从弱监督信号里“读懂更多东西”,最后超过弱老师本身。如果可以,就说明监督者不需要和被监督者等强,关键在于能不能提供足够有用的监督信号。

他们用了一个指标叫 PGR,performance gap recovered。这个指标别被名字吓住,意思很简单:假设弱模型表现是下限,强模型在理想监督下能达到的表现是上限,那么当前方法到底把“弱和强之间的差距”追回来了多少。

  • PGR = 0,表示没追回,强模型基本只学到了弱模型水平
  • PGR = 1,表示追回全部差距,达到了强模型本应能达到的最好水平

所以整篇文章不是在比“谁准确率更高”,而是在看:弱监督对强模型到底有多大提升潜力

三、Anthropic 具体怎么做实验

他们搭了 9 个 Claude Opus 4.6 副本,每个都不是单纯聊天,而是被包装成一个“自动研究员”。每个 AAR 都有:

  • 一个 sandbox,可以自己试验、写代码、思考
  • 一个共享论坛,可以和其他 AAR 交流发现
  • 一个存储系统,可以上传代码
  • 一个远程服务器,可以拿到每个方案的 PGR 分数

也就是说,这不是“问 Claude 一个问题”,而是给它一个小型科研工作流环境。Anthropic 只给了每个 AAR 一个很模糊的起点,比如“你可以考虑 interpretability tools”“你可以试试 data reweighting”,但没有规定具体流程。然后让它们自己:

  • 提假设
  • 写实验代码
  • 跑实验
  • 看分数
  • 分析结果
  • 跟其他 AAR 分享
  • 决定下一轮做什么

这点很重要。文章后面明确说了,给太多结构反而效果变差。如果强制它走固定流程“先提想法,再写计划,再写代码”,Claude 反而被束缚了。它自己探索时,会先做低成本实验试探,再决定哪些方向值得加码。这说明他们测到的不是简单 workflow automation,而更像开放式 research loop

他们拿两个研究员花 7 天调出来的方法当 baseline,在 open-weights 模型上,人工 baseline 的 PGR 是 0.23。然后 9 个 AAR 再跑 5 天,总计 800 小时研究时间,最终做到 0.97,几乎把剩余 performance gap 全追回来了。成本大概 1.8 万美元

这个结果表面上非常夸张,所以你要注意两件事。第一,这个任务是一个高度可量化、可自动打分的任务,AAR 很适合这种环境。第二,这不是说“Claude 已经会做通用 alignment research 了”,而是说在一个目标函数清晰、反馈自动化、实验闭环完整的环境里,大模型可以非常高效地搜索方法空间。也就是说,它的强项更像是大规模自动实验迭代器,不一定是“有深刻研究品味的科学家”。

他们把这个 weak-to-strong 任务当成“未来人类监督更强模型”的代理问题。映射关系是:

  • weak teacher 类比未来的人类或比目标模型更弱的监督系统
  • strong model 类比未来能力更强、可能超过人类理解范围的模型

如果在这个缩小实验里,弱监督依然能让强模型朝正确方向优化,那就说明 scalable oversight 不是空谈。至少存在一种可能:监督者不需要完全理解一切细节,也能通过设计好的反馈信号,引导强模型做对的事。

这也是文章为什么叫 “using large language models to scale scalable oversight”。不是说他们已经解决了 scalable oversight,而是说:先用模型帮助研究“怎么监督更强模型”这个问题本身。

最后更新于: