大模型前沿速递 · 2026 年 6 月 10 日

大模型前沿速递 · 2026 年 6 月 10 日

今日五篇:ALE 测出最强 Agent 在真实经济任务上平均通过率仅 2.6%;SWE-Explore 把代码 Agent 仓库探索能力拆成三维评测;LatentSkill 把文本技能压入 LoRA 权重省掉 64% 预填 token;Mirage 把视频世界模型的 3D 记忆迁入潜空间速度提升 10.57 倍;OPD 几何分析首次揭示在策略蒸馏在参数更新中形成独立的子空间锁定流形。

大模型学术前沿
2026/6/10 · 8:11
1 订阅 · 7 内容

研究速览

今日五篇:ALE 用真实职场任务测出最强 Agent 平均通过率 2.6%;SWE-Explore 把代码 Agent 的仓库探索拆成可量化的三维评测;LatentSkill 用超网络把文本技能压入权重让 Agent 运行时省掉 64% 的前缀 token;Mirage 在潜空间里构建 3D 记忆,视频世界模型端到端推理速度提升 10.57 倍;On-Policy Distillation 几何分析首次揭示 OPD 的参数更新在 SFT 与 RLVR 之间形成独立的「子空间锁定」流形。

1. Agents' Last Exam:最强 Agent 在真实经济任务上平均通过率仅 2.6%

arXiv:2606.05405 | 预印本 | UC Berkeley 等 250+ 行业专家协作
各类 Agent 基准的准确率一路攀升,但这些成绩有没有转化为实际经济价值?Agents' Last Exam(ALE)的出发点正是这个问题。1
ALE 覆盖 13 个行业集群 / 55 个子领域,包含 1000 余项任务,全部基于美国联邦职业分类体系(O*NET/SOC 2018)构建,并要求结果可核验。当前最难等级的评测结果是:主流 harness 与骨干模型的平均完整通过率为 2.6%
与 SWE-bench 或学术问答基准不同,ALE 的核心设计原则是"长时程 + 可核验 + 真实经济价值"三者同时满足。参与构建的行业专家来自法律、医学、金融、生物、工程等领域,任务本身不是变体题而是实际工作流。ALE 也被设计成动态扩展的基准,随着新行业和新工作流接入,任务池会持续增长。
2.6% 这个数字的意义不在于当前模型能力有多差,而在于它给出了一把不容易刷高的尺子——历史证明,基准一旦变成跑分竞赛,信息量就迅速缩水。
正在加载内容卡片…

2. SWE-Explore:把代码 Agent 的「仓库探索」拆成可量化三维评测

arXiv:2606.07297 | 预印本 | 上海交通大学 | HF Jun 9 最高热度(95 upvotes)
SWE-bench 系列评测代码 Agent 的最终修复率,但把「理解仓库结构」和「定位相关代码」这一步的贡献完全藏在黑箱里。SWE-Explore 专门剥离出这个探索能力做评测。2
基准设计:848 个 issue × 10 种编程语言 × 203 个开源仓库。对每个实例,ground truth 不靠人工标注,而是从若干独立成功修复同一 issue 的 Agent 轨迹中提炼出「实际被访问的代码行」,形成行级别的黄金路径。评测维度分三个:覆盖率(相关代码行有没有被找到)、排序(相关内容是否靠前)、上下文效率(用多少预算找到了多少)。
关键发现:在当前测试的检索方法和 Agent 中,「智能体型探索器」明显优于经典检索,但行级别的精准排序和效率仍是主要差距——即使文件级定位已经接近饱和,精确到具体代码行还差得远。
这个结论对工程实践有直接含义:当前代码 Agent 流程的瓶颈可能不在修复步骤,而在探索步骤的精度上。
正在加载内容卡片…

3. LatentSkill:超网络把文本技能编译成 LoRA,预填 token 压缩 64%

arXiv:2606.06087 | 预印本 | 上海交通大学 / Weinan Zhang 团队
Agent 系统普遍把「技能」存成文本放进提示词,每步决策都要重读一遍,带来两个问题:上下文开销大,且技能内容以明文暴露。LatentSkill 把文本技能编译成 LoRA 适配器,用权重存储替换上下文存储。3
核心做法:训练一个超网络(hypernetwork),输入文本技能描述,输出对应的 LoRA 权重。推理时不再把技能塞进提示词,而是直接挂载对应的 LoRA。多个技能可以通过参数空间算术进行组合。
实验结果:在 ALFWorld 上,已见任务成功率提升 21.4pp,未见任务提升 13.4pp,预填 token 减少 64.1%;在 Search-QA 上精确匹配提升 3.0pp,技能 token 开销降低 72.2%
作者进一步分析发现,不同技能生成的 LoRA 在参数空间形成了有语义结构的几何分布,技能之间的关联度可以通过 LoRA scaling 系数直接调节——这意味着这套方法不仅是压缩,而是在权重空间里构建了一种可操控的技能表示。
正在加载内容卡片…

4. Mirage:视频世界模型的 3D 记忆从 RGB 空间迁移到潜空间,速度提升 10.57×

arXiv:2606.09828 | 预印本 | Microsoft Research | 附项目主页与开源代码
维持跨帧 3D 空间一致性是视频世界模型的核心挑战,主流做法是在 RGB 空间建显式点云记忆,但这需要反复走完渲染 → VAE 编码的往返路径,既慢又在像素空间转换中丢掉了潜表示里的丰富特征。Mirage 把这个记忆直接建在扩散模型的潜空间里。4
具体流程:通过深度引导的反投影(depth-guided back-projection)把潜 token 提升到 3D,查询时直接在潜空间做视角变换(latent-space warping)合成新视图,全程不经过像素重建。
与显式 3D 基线相比:端到端视频生成速度提升最高 10.57 倍,内存占用下降 55 倍,同时在 WorldScore 基准上达到 SOTA,在 RealEstate10K 上重建质量也保持强劲。开源代码已发布在 GitHub(microsoft/LatentSpatialMemory)。
这一思路对下游影响值得关注:如果潜空间 3D 记忆可以普遍替代 RGB 空间点云,视频世界模型的计算瓶颈之一就消失了,而这类模型在机器人感知、具身 AI 和自动驾驶里都是基础件。
正在加载内容卡片…

5. On-Policy Distillation 的几何:OPD 在参数空间形成独立的「子空间锁定」流形

arXiv:2606.07082 | 预印本 | 香港科技大学等
在策略蒸馏(OPD)被广泛用于 LLM 推理能力迁移的同时,它在参数空间里究竟做了什么——更新了哪些权重,走的是 SFT 的路还是 RLVR 的路——几乎没有系统分析。这篇论文用四个参数空间诊断指标把这件事搞清楚了。5
诊断指标:更新稀疏度(update sparsity)、主方向旋转角度(principal-angle rotation)、谱漂移(spectral drift)和更新掩码重叠度(update-mask overlap)。用 Qwen3-8B(学生)和 Qwen3-32B(教师)做对照实验。
主要发现:
  • OPD 处于「松弛偏轴」区间:和 SFT 比,更新影响的权重更少、更倾向于回避主方向;和 RLVR 比,约束程度更低。更新稀疏度:SFT 91.9% vs OPD 48.4% vs RLVR 22.8%。
  • 子空间锁定(Subspace Locking):OPD 在训练早期就进入一个低维的更新通道,并维持在里面。把梯度约束到训练前 20% 形成的 rank-16 子空间内,OPD 性能不降;同样操作加在 SFT 上则会明显掉点。
  • OPD 不是 SFT 和 RLVR 的中间点,而是一种独立的更新几何——混合 OPD+RLVR 目标会改变这个几何,简单稀疏化 token 或把生成移到 off-policy 则不改变。
实践层面的直接含义:蒸馏流水线的设计重心应该是目标函数的几何,而不只是「选哪些 token 学」。用 rank-16 子空间约束这类低秩结构做诊断或剪枝,也是一个新的工具。
正在加载内容卡片…

数据来源:HuggingFace Daily Papers(2026-06-09)、arXiv 论文原文。各条目均为预印本,尚未经同行评审。

围绕这条内容继续补充观点或上下文。

  • 登录后可发表评论。