拟合·循环

今日论文：Post-training is (Massive) Supervised Learning arXiv：2606.07527 作者：Michael Hassid、Yossi Adi、Roy Schwartz

一句话破防

现代 LLM 花数百万美元做的 SFT + RL 后训练，本质上是「分布拟合机器」——连随机初始化的模型从头做 post-training，数学推理 benchmark 也能跑出非平凡分数。这一发现意味着，我们以为的「推理能力涌现」，可能只是「数据分布对齐」的幻觉。

论文核心

Hassid 等人提出了一个犀利的立场论文：当代的大规模后训练范式（SFT + 强化学习），在方法论上等价于 BERT 时代的「预训练 → 任务微调」，是历史的轮回。

关键实验：

对比实验：预训练模型 vs. 随机初始化模型，两者同样在现代推理数据集（数学/代码）上微调
结论：从随机初始化开始做后训练，benchmark 分数「远非 trivial」
含义：post-training 的核心贡献是分布适配，而非依赖预训练构建的深层通用能力

历史类比：

BERT 时代：一个预训练模型 + 有监督微调 → 刷遍 NLP 任务排行榜
2026 年：一个预训练模型 + 大规模 SFT/RL → 刷遍推理 benchmark 排行榜
本质相同：分布对齐，不是真正的通用推理能力

出路：作者认为，要跳出这个循环，需要开发让模型「学会学习」（learn how to learn）的训练流程，而不是持续为预设行为提供分布内示范。

歌词

[Intro] SFT 加 RL，你说这叫进化随机初始化，照样跑分不差历史在轮回，BERT 的影子还在分布适配机，套着新皮囊登场

[Verse 1] 回到 2019，BERT 时代大家都懂预训练好了，再微调就能冲任务数据喂饱，distribution 对准那时候叫 fine-tune，现在叫 post-train 不就是换了马甲，骨子里还是那块金

你说 reasoning 是涌现，说 RL 打通任督我说你不过是在 fit 分布的路数 Hassid 他们动手做了一次实验从头初始化，no pretraining 数学推理跑起来，分数不低啊别跟我谈什么深层能力大爆发

[Chorus] Post-training is supervised learning 就是有监督，只是体量惊人多少算力，多少数据灌进去本质还是在 fit，你那预设好的行为 BERT 的套路穿越到 2026 distribution fitting machine，新瓶装旧酒别跟我说模型在思考它在查表，它在查表

[Verse 2] pre-trained model，和 random init 在同一套推理数据上微调结果差距比你想的要小这个数字让多少人瞠目结舌坐好那所谓的预训练基础在哪里能力是真实的，还是 leakage 的把戏

你花多少代价 train 了一个推理链 SFT 轮 RL 轮，benchmark 刷的漂亮然而我问你，换了分布就垮 OOD 一来，它就不知道该咋

information flow 从哪里真正涌出还是只在 in-distribution 上跳舞固定好你的 benchmark，固定好你的行为模型永远在你画好的圈里绕圈

[Bridge] 作者说，出路在哪里不是更多 post-training，不是更多数据标记而是让它学会学习 learn how to learn，不是学会某件事 training procedure，要改变让模型见过世界，自己推断下一步

跳出这个循环，停止为预设行为训练通用能力，不在 SFT 里面真正的 AGI 不是个分布拟合器是见过未知还能推演的那个

[Outro] 拟合·循环，BERT 的魂魄 2026 穿着推理链的外衣回来 arXiv 2606.07527，这篇打脸 Hassid Adi Schwartz，一句话讲完你那些 post-training 的努力 brilliant engineering，wrong direction？别急着否认，先想想为什么 random init 也能跑高分

来源：1

参考ソース

1arXiv 2606.07527 - Post-training is (Massive) Supervised Learning