内化未来：世界模型规划的统一智能体训练范式

1. 研究背景与问题

大语言模型（LLM）智能体在序列决策中展现出强大能力，但在长周期任务中仍存在根本性的反应式局限。与人类在行动前会进行“假设性”推理（what-if reasoning）来评估潜在计划不同，标准智能体缺乏内部世界模型来模拟未来结果。因此，我们提出通过训练单一自回归模型来内化未来感知规划，该模型能够同时表述前瞻性状态推演（prospective state rollout）和基于计划的成功估计——即Q值的文本类比。

2. 格式-能力差距的发现

关键的是，我们识别出一个格式-能力差距（format-capability gap）：在后期训练中仅对智能体进行前瞻性轨迹（look-ahead traces）的微调，会导致对前瞻能力的表面模仿，而缺乏真正的预测基础。为弥合这一差距，我们引入了一个三阶段训练范式。

6. 相关资源与工具

全文链接：查看PDF、TeX源码、许可证。当前浏览上下文：cs.AI（上一页 | 下一页 | 新文章 | 近期 | 2026-06）。可切换浏览至：cs。参考文献：NASA ADS、Google Scholar、Semantic Scholar。导出BibTeX引用：加载中...。书签：文献工具（文献浏览器、Connected Papers、Litmaps、scite.ai）。代码、数据与媒体：alphaXiv、CatalyzeX代码查找器、DagsHub、GotitPub、Huggingface、ScienceCast。演示：Replicate、Hugging Face Spaces、TXYZ.AI。相关论文推荐与搜索工具：Influence Flower、CORE推荐器。

7. 关于arXivLabs

arXivLabs是一个框架，允许合作者直接在arXiv网站上开发和共享新功能。与arXivLabs合作的个人和组织都接受并认可我们关于开放性、社区、卓越和用户数据隐私的价值观。arXiv致力于这些价值观，仅与遵守这些价值观的合作伙伴合作。有想法为arXiv社区增加价值吗？了解更多关于arXivLabs的信息。

1. 研究背景与问题

2. 格式-能力差距的发现

3. 三阶段训练范式详解

该范式包括：(i) 世界模型智能体中期训练（WM-AMT），用于将潜在预测能力注入策略；(ii) 格式激发监督微调（FE-SFT），用于结构化这种注入的能力；(iii) 前瞻条件强化学习（FC-RL），用于优化生成模拟的校准性和实用性。

4. 实验评估与结果

在搜索和数学推理任务上的评估表明，我们的方法始终优于其他训练基线。我们的结果证明，在LLM智能体中实现有效的内部世界建模需要一个能力优先的训练流程，以实现有基础且校准的前瞻能力。

5. 论文元数据与引用信息

主题：人工智能（cs.AI）。引用格式：arXiv:2606.27483 [cs.AI]（或 arXiv:2606.27483v1 [cs.AI] 版本）。DOI：https://doi.org/10.48550/arXiv.2606.27483（通过DataCite注册中）。提交历史：来自Xuan Zhang，[v1] 2026年6月25日星期四19:05:44 UTC（19,366 KB）。

6. 相关资源与工具

7. 关于arXivLabs

8. 作者与支持信息

本文的作者中哪些是背书人？| 禁用MathJax（什么是MathJax？）

🔗 原文链接：https://arxiv.org/abs/2606.27483