返回
ai-tools2026年6月29日1 分钟

内化未来:世界模型规划的统一智能体训练范式

#大语言模型#世界模型#智能体训练#强化学习#序列决策

1. 研究背景与问题

大语言模型(LLM)智能体在序列决策中展现出强大能力,但在长周期任务中仍存在根本性的反应式局限。与人类在行动前会进行“假设性”推理(what-if reasoning)来评估潜在计划不同,标准智能体缺乏内部世界模型来模拟未来结果。因此,我们提出通过训练单一自回归模型来内化未来感知规划,该模型能够同时表述前瞻性状态推演(prospective state rollout)和基于计划的成功估计——即Q值的文本类比。

2. 格式-能力差距的发现

关键的是,我们识别出一个格式-能力差距(format-capability gap):在后期训练中仅对智能体进行前瞻性轨迹(look-ahead traces)的微调,会导致对前瞻能力的表面模仿,而缺乏真正的预测基础。为弥合这一差距,我们引入了一个三阶段训练范式。

3. 三阶段训练范式详解

该范式包括:(i) 世界模型智能体中期训练(WM-AMT),用于将潜在预测能力注入策略;(ii) 格式激发监督微调(FE-SFT),用于结构化这种注入的能力;(iii) 前瞻条件强化学习(FC-RL),用于优化生成模拟的校准性和实用性。

4. 实验评估与结果

在搜索和数学推理任务上的评估表明,我们的方法始终优于其他训练基线。我们的结果证明,在LLM智能体中实现有效的内部世界建模需要一个能力优先的训练流程,以实现有基础且校准的前瞻能力。

5. 论文元数据与引用信息

主题:人工智能(cs.AI)。引用格式:arXiv:2606.27483 [cs.AI](或 arXiv:2606.27483v1 [cs.AI] 版本)。DOI:https://doi.org/10.48550/arXiv.2606.27483(通过DataCite注册中)。提交历史:来自Xuan Zhang,[v1] 2026年6月25日星期四19:05:44 UTC(19,366 KB)。

6. 相关资源与工具

全文链接:查看PDF、TeX源码、许可证。当前浏览上下文:cs.AI(上一页 | 下一页 | 新文章 | 近期 | 2026-06)。可切换浏览至:cs。参考文献:NASA ADS、Google Scholar、Semantic Scholar。导出BibTeX引用:加载中...。书签:文献工具(文献浏览器、Connected Papers、Litmaps、scite.ai)。代码、数据与媒体:alphaXiv、CatalyzeX代码查找器、DagsHub、GotitPub、Huggingface、ScienceCast。演示:Replicate、Hugging Face Spaces、TXYZ.AI。相关论文推荐与搜索工具:Influence Flower、CORE推荐器。

7. 关于arXivLabs

arXivLabs是一个框架,允许合作者直接在arXiv网站上开发和共享新功能。与arXivLabs合作的个人和组织都接受并认可我们关于开放性、社区、卓越和用户数据隐私的价值观。arXiv致力于这些价值观,仅与遵守这些价值观的合作伙伴合作。有想法为arXiv社区增加价值吗?了解更多关于arXivLabs的信息。

8. 作者与支持信息

本文的作者中哪些是背书人?| 禁用MathJax(什么是MathJax?)


🔗 原文链接:https://arxiv.org/abs/2606.27483