现代 LLM 的 SFT+RL 后训练本质只是分布拟合——随机初始化的模型从头做 post-training 居然也能跑出非平凡推理分数,这意味着我们以为的「推理涌现」可能只是数据对齐的幻觉。通勤一分四十秒,听懂今日最犀利「BERT 轮回」学术 Diss。
このコンテンツについて、さらに観点や背景を補足しましょう。
このコンテンツについて、さらに観点や背景を補足しましょう。