应该整点(伪)技术性文章了。
OpenAI o1
是什么
北京时间 9 月 13 日午夜,OpenAI
正式公开一系列全新 AI 大模型,旨在专门解决难题。这是一个重大突破,新模型可以实现复杂推理,一个通用模型解决比此前的科学、代码和数学模型能做到的更难的问题。
首先,o1 就是此前 OpenAI
一直在「高调宣传」的草莓大模型,它拥有真正的通用推理能力,在一系列高难基准测试中展现出了超强实力,相比 GPT-4o 有巨大提升。
最后在实践中,o1 上线之后,现在 ChatGPT
可以在回答问题前先仔细思考,而不是立即脱口而出答案。就像人类大脑的系统 1 和系统 2,已经从仅使用系统 1(快速、直观、易出错)进化到了可使用系统 2 思维(缓慢、深思熟虑、可靠)。这让它能够解决以前无法解决的问题。
OpenAI o1
怎么做到的
实际上,OpenAI o1
运用的技术关键还是在于强化学习的搜索与学习机制,基于 LLM 已有的推理能力,迭代式的 Bootstrap 模型产生合理推理过程(Rationales) 的能力,并将 Rationales 融入到训练过程内,让模型学会进行推理,再运用足够强大的计算量实现 Post-Training 阶段的 Scaling Law。这里合理推理过程并不只是对问题的拆解和分步作答,还有对于为什么如此作答的分析和思考。
技术要点有三:
- 后训练扩展律 Post-Training Scaling Laws 已经出现,并且 Post-Training Scaling Laws 为上述技术路径的成功提供了有力支持。
- 模型学习的是产生合理推理的过程,MCTS 在其中的作用是诱导合理推理过程的产生或构建相应的偏序对形成细粒度奖励信号,而非直接搜索过程和最终答案。
- 模型的 BootStrap 有助于构建新的高质量数据,并且新的 Rationales 数据促进了模型进一步提升能力。
后训练扩展律 Post-Training Scaling Law
随着模型尺寸逐渐增大,预训练阶段参数 Scaling Up 带来的边际收益开始递减,OpenAI
在 2021 年提到,自回归模型在数学推理问题上很难进步的一点在于没有办法进行回答的自主修正,如果仅是依靠生成式方法和扩大参数规模,那么在数学推理任务上带来的收益不会太大。
而在 Post-Training Scaling Laws 下,训练阶段的计算量不再只是和参数量的上升有关,同时也会包含 RL 探索时 LLM Inference 的计算量。Post-train 虽然参数没变,但是在训练算力上仍然会倍数增长;推理上也会随着模型 “思考能力提高”,单次算力增长。
强化学习和 Quiet-STaR
大语言模型在通过 Next Token Prediction 生成回答时,更像是一种 “快思考” 过程。由于缺乏详细的中间推理步骤,模型一开始可能会犯错,而这些错误可能会传播,最终导致生成的答案也是错误的。
为了优化这一过程,产生了一系列方法,其中包括在 Token 级别 或 子句级别 提供奖励信号,帮助模型调整生成的回答,如蒙特卡洛树搜索 MCTS。
另一种方式是通过**思维链(Chain of Thought, CoT)**优化模型输出。CoT
通过分步推理的方式,要求模型在生成最终答案之前,先生成一系列中间推理步骤。但生成这些中间步骤但并不能教会模型内部深入思考问题的关联。
STaR
的核心思路是利用 LLM 已有的推理能力,迭代式的 Bootstrap 模型产生合理推理过程(Rationales) 的能力,并将 Rationales 融入到训练过程内,让模型学会进行推理。
Quiet-STaR
提出 “内部思维” 的概念,将显式的 Rationales 推理过程转化为模型内部隐式的推理过程,从而摆脱对于外部示例的依赖。
就目前来看,Quiet-STaR
是最接近 o1 的技术路线和模型表现效果的,但是如果想要进一步达到 OpenAI o1
的效果,还需要克服很多问题。例如如下两个问题:
Quiet-STaR
在生成内部思维的过程中,每个 Token 均会生成下一步的对应的思考过程,导致生成了大量额外的 tokens,这也导致了计算资源需求大幅增加。实际上模型需要学会动态的调整Thinking Token
。- 对于更复杂的任务和长程问题, 如何针对内部思考过程提供细粒度的奖励信号?仅仅通过比较合理推理的回答和正确回答是否一致是不够的。
如何构造隐式 CoT 的优化过程的 Reward?
可以通过不同温度采样出来的推理路径构建偏序,也可能是 MCTS 搜出来的正误参半的不同推理过程形成偏序。这点和先前的 MCTS 用法会有所不同,MCTS 节点上不再是最终生成答案中的某个 token 或某步,而是隐式推理过程中的每一步。
同时,为了提供更加细粒度的反馈和指导,需要引入过程性的奖励,而针对模型自身已经难以提供合理推理过程的复杂问题,通过引入额外的足够强的 Critic Model 来解决这个问题。
同时,在 OpenAI
披露的细节中,生成过程中的 Thinking Token 是动态引入的,这也尽可能的减少了不必要的思考带来的额外算力损耗。
大模型天花板在哪里?
关于OpenAI o1
,现在普遍认为有以下两条技术路线:
- 通过合成数据进一步扩展数据和参数规模。
- 通过模态混合和模态穿透的方法,借助其他模态增强模型能力。相比于公开的文本数据,图像、视频、音频等数据的总量更大,且包含的信息量也更丰富。
- 推理能力和模型的指令跟随能力呈现出分离关系。
OpenAI o1
在数学等复杂任务上的推理能力有了大幅提升,但语言生成任务并没有体现出更大的进步。
OpenAI o1
的背后……
近日,OpenAI 著名研究科学家 Noam Brown 一份 5 月的演讲上线网络,或可揭示 o1 背后的研究发展脉络。
“推理是对于问题有效地长时间思考,如 STEM 相关问题。”
“一旦 o1 开始思考更长时间,它自然涌现了更多能力(如backtracking and self-correction),并且这些能力来源于一种干净并可扩展的方法。”
Post-Training Scaling Law 的瓶颈会是什么?:扩大规模、构建更大规模的工程系统、寻找更多可以测试模型的内容(what to test the model on)。
参考资料
访谈
Noam Brown早已预示o1强大推理能力,演讲深度解析AI推理研究脉络:https://mp.weixin.qq.com/s/KRttVeMN4tPw9yb6f4LQgA;
报告
观点速读|OpenAI O1研究员诺姆:搜索和规划,可能打破Scaling Law,成为破解通用推理的钥匙:
https://mp.weixin.qq.com/s/cdYZWl-FoE89gkj1Q8RuGg
论文
参考:北大对齐团队独家解读:OpenAI o1开启「后训练」时代强化学习新范式 https://mp.weixin.qq.com/s/FXGdJA8OyZvLl89rXJiyAQ
[1] Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking https://arxiv.org/abs/2403.09629