大模型前沿速递 · 2026 年 6 月 10 日

今日五篇：ALE 用真实职场任务测出最强 Agent 平均通过率 2.6%；SWE-Explore 把代码 Agent 的仓库探索拆成可量化的三维评测；LatentSkill 用超网络把文本技能压入权重让 Agent 运行时省掉 64% 的前缀 token；Mirage 在潜空间里构建 3D 记忆，视频世界模型端到端推理速度提升 10.57 倍；On-Policy Distillation 几何分析首次揭示 OPD 的参数更新在 SFT 与 RLVR 之间形成独立的「子空间锁定」流形。

1. Agents' Last Exam：最强 Agent 在真实经济任务上平均通过率仅 2.6%

arXiv:2606.05405 | 预印本 | UC Berkeley 等 250+ 行业专家协作

各类 Agent 基准的准确率一路攀升，但这些成绩有没有转化为实际经济价值？Agents' Last Exam（ALE）的出发点正是这个问题。1

ALE 覆盖 13 个行业集群 / 55 个子领域，包含 1000 余项任务，全部基于美国联邦职业分类体系（O*NET/SOC 2018）构建，并要求结果可核验。当前最难等级的评测结果是：主流 harness 与骨干模型的平均完整通过率为 2.6%。

与 SWE-bench 或学术问答基准不同，ALE 的核心设计原则是"长时程 + 可核验 + 真实经济价值"三者同时满足。参与构建的行业专家来自法律、医学、金融、生物、工程等领域，任务本身不是变体题而是实际工作流。ALE 也被设计成动态扩展的基准，随着新行业和新工作流接入，任务池会持续增长。

2.6% 这个数字的意义不在于当前模型能力有多差，而在于它给出了一把不容易刷高的尺子——历史证明，基准一旦变成跑分竞赛，信息量就迅速缩水。

arxiv.orghttps://arxiv.org/abs/2606.05405外部链接

正在加载内容卡片…

2. SWE-Explore：把代码 Agent 的「仓库探索」拆成可量化三维评测

arXiv:2606.07297 | 预印本 | 上海交通大学 | HF Jun 9 最高热度（95 upvotes）

SWE-bench 系列评测代码 Agent 的最终修复率，但把「理解仓库结构」和「定位相关代码」这一步的贡献完全藏在黑箱里。SWE-Explore 专门剥离出这个探索能力做评测。2

基准设计：848 个 issue × 10 种编程语言 × 203 个开源仓库。对每个实例，ground truth 不靠人工标注，而是从若干独立成功修复同一 issue 的 Agent 轨迹中提炼出「实际被访问的代码行」，形成行级别的黄金路径。评测维度分三个：覆盖率（相关代码行有没有被找到）、排序（相关内容是否靠前）、上下文效率（用多少预算找到了多少）。

关键发现：在当前测试的检索方法和 Agent 中，「智能体型探索器」明显优于经典检索，但行级别的精准排序和效率仍是主要差距——即使文件级定位已经接近饱和，精确到具体代码行还差得远。

这个结论对工程实践有直接含义：当前代码 Agent 流程的瓶颈可能不在修复步骤，而在探索步骤的精度上。

arxiv.orghttps://arxiv.org/abs/2606.07297外部链接

正在加载内容卡片…

3. LatentSkill：超网络把文本技能编译成 LoRA，预填 token 压缩 64%

arXiv:2606.06087 | 预印本 | 上海交通大学 / Weinan Zhang 团队

Agent 系统普遍把「技能」存成文本放进提示词，每步决策都要重读一遍，带来两个问题：上下文开销大，且技能内容以明文暴露。LatentSkill 把文本技能编译成 LoRA 适配器，用权重存储替换上下文存储。3

核心做法：训练一个超网络（hypernetwork），输入文本技能描述，输出对应的 LoRA 权重。推理时不再把技能塞进提示词，而是直接挂载对应的 LoRA。多个技能可以通过参数空间算术进行组合。

实验结果：在 ALFWorld 上，已见任务成功率提升 21.4pp，未见任务提升 13.4pp，预填 token 减少 64.1%；在 Search-QA 上精确匹配提升 3.0pp，技能 token 开销降低 72.2%。

作者进一步分析发现，不同技能生成的 LoRA 在参数空间形成了有语义结构的几何分布，技能之间的关联度可以通过 LoRA scaling 系数直接调节——这意味着这套方法不仅是压缩，而是在权重空间里构建了一种可操控的技能表示。

arxiv.orghttps://arxiv.org/abs/2606.06087外部链接

正在加载内容卡片…

4. Mirage：视频世界模型的 3D 记忆从 RGB 空间迁移到潜空间，速度提升 10.57×

arXiv:2606.09828 | 预印本 | Microsoft Research | 附项目主页与开源代码

维持跨帧 3D 空间一致性是视频世界模型的核心挑战，主流做法是在 RGB 空间建显式点云记忆，但这需要反复走完渲染 → VAE 编码的往返路径，既慢又在像素空间转换中丢掉了潜表示里的丰富特征。Mirage 把这个记忆直接建在扩散模型的潜空间里。4

具体流程：通过深度引导的反投影（depth-guided back-projection）把潜 token 提升到 3D，查询时直接在潜空间做视角变换（latent-space warping）合成新视图，全程不经过像素重建。

与显式 3D 基线相比：端到端视频生成速度提升最高 10.57 倍，内存占用下降 55 倍，同时在 WorldScore 基准上达到 SOTA，在 RealEstate10K 上重建质量也保持强劲。开源代码已发布在 GitHub（microsoft/LatentSpatialMemory）。

这一思路对下游影响值得关注：如果潜空间 3D 记忆可以普遍替代 RGB 空间点云，视频世界模型的计算瓶颈之一就消失了，而这类模型在机器人感知、具身 AI 和自动驾驶里都是基础件。

arxiv.orghttps://arxiv.org/abs/2606.09828外部链接

正在加载内容卡片…

5. On-Policy Distillation 的几何：OPD 在参数空间形成独立的「子空间锁定」流形

arXiv:2606.07082 | 预印本 | 香港科技大学等

在策略蒸馏（OPD）被广泛用于 LLM 推理能力迁移的同时，它在参数空间里究竟做了什么——更新了哪些权重，走的是 SFT 的路还是 RLVR 的路——几乎没有系统分析。这篇论文用四个参数空间诊断指标把这件事搞清楚了。5

诊断指标：更新稀疏度（update sparsity）、主方向旋转角度（principal-angle rotation）、谱漂移（spectral drift）和更新掩码重叠度（update-mask overlap）。用 Qwen3-8B（学生）和 Qwen3-32B（教师）做对照实验。

主要发现：

OPD 处于「松弛偏轴」区间：和 SFT 比，更新影响的权重更少、更倾向于回避主方向；和 RLVR 比，约束程度更低。更新稀疏度：SFT 91.9% vs OPD 48.4% vs RLVR 22.8%。
子空间锁定（Subspace Locking）：OPD 在训练早期就进入一个低维的更新通道，并维持在里面。把梯度约束到训练前 20% 形成的 rank-16 子空间内，OPD 性能不降；同样操作加在 SFT 上则会明显掉点。
OPD 不是 SFT 和 RLVR 的中间点，而是一种独立的更新几何——混合 OPD+RLVR 目标会改变这个几何，简单稀疏化 token 或把生成移到 off-policy 则不改变。

实践层面的直接含义：蒸馏流水线的设计重心应该是目标函数的几何，而不只是「选哪些 token 学」。用 rank-16 子空间约束这类低秩结构做诊断或剪枝，也是一个新的工具。

arxiv.orghttps://arxiv.org/abs/2606.07082外部链接

正在加载内容卡片…

数据来源：HuggingFace Daily Papers（2026-06-09）、arXiv 论文原文。各条目均为预印本，尚未经同行评审。

大模型前沿速递 · 2026 年 6 月 10 日

1. Agents' Last Exam：最强 Agent 在真实经济任务上平均通过率仅 2.6%

2. SWE-Explore：把代码 Agent 的「仓库探索」拆成可量化三维评测

3. LatentSkill：超网络把文本技能编译成 LoRA，预填 token 压缩 64%

4. Mirage：视频世界模型的 3D 记忆从 RGB 空间迁移到潜空间，速度提升 10.57×

5. On-Policy Distillation 的几何：OPD 在参数空间形成独立的「子空间锁定」流形

参考来源