通过留出选择实现递归自进化智能体

1. 研究背景与问题

大型语言模型（LLM）智能体越来越多地通过进化自然语言工件（如反思、工作流、操作手册、速查表或优化提示）来改进，而无需权重更新，这些工件用于调节冻结策略。此类方法通常被报道为在它们所帮助的单一基准测试上取得了胜利。我们对它们进行了公平比较，并揭示了一幅更清晰的图景。

2. RSEA方法介绍

我们引入了RSEA（Recursive Self-Evolving Agent，递归自进化智能体），它携带一个紧凑的三层自然语言状态：一个命令式策略、可复用技能和一个程序性操作手册。在代际进化中，RSEA从其自身的轨迹中重写所有三层，并且仅当候选者在不相交的留出分割（held-out split）上没有退化时，才通过严格的保持更好门控（keep-better gate）提交该候选者。

4. 结果一：无通用最优工件

首先，没有一种工件是普遍最优的。RSEA是ALFWorld上最强的单次方法，达到69.3%，而ReAct为64.6%（McNemar检验，p=0.015），并且通过重试达到79.4%，这是整体最佳结果。然而，以AWM为代表的具体工作流归纳方法在强骨干工具使用任务上表现最佳。

7. 论文信息与引用

主题：人工智能（cs.AI）。引用格式：arXiv:2606.28374 [cs.AI]（或此版本的arXiv:2606.28374v1 [cs.AI]）。DOI：https://doi.org/10.48550/arXiv.2606.28374。提交历史：来自Michael Nguyen [查看电子邮件] [v1] 2026年6月17日星期三14:53:36 UTC（257 KB）。全文链接：访问论文，查看PDF，HTML（实验性），TeX源码，查看许可。当前浏览上下文：cs.AI 上一页 | 下一页 | 新 | 最近 | 2026-06。更改浏览至：cs。参考文献：引用，NASA ADS，Google Scholar，Semantic Scholar。导出BibTeX引用。数据提供：书签，书目工具，代码、数据与媒体，演示，相关论文推荐与搜索工具，作者、机构、主题。关于arXivLabs：arXivLabs是一个框架，允许合作者直接在我们的网站上开发和共享新的arXiv功能。与arXivLabs合作的个人和组织都接受并认可我们关于开放、社区、卓越和用户数据隐私的价值观。arXiv致力于这些价值观，并仅与遵守这些价值观的合作伙伴合作。有想法为arXiv社区增加价值的项目吗？了解更多关于arXivLabs的信息。这篇论文的作者中哪些是背书人？| 禁用MathJax。

1. 研究背景与问题

2. RSEA方法介绍

3. 实验设置与基准

在四个不同的基准测试（ALFWorld、GAIA、τ-bench和WebShop）以及六个忠实基线（ReAct、Reflexion、GEPA、AWM、ACE和Dynamic Cheatsheet）上，所有方法均在一个共享的本地骨干网络上进行评估，我们发现了三个主要结果。

4. 结果一：无通用最优工件

5. 结果二：无保护的上下文进化风险高

其次，无保护的上下文进化（unguarded context evolution）具有高方差且不安全。Dynamic Cheatsheet在线整理上下文而不使用留出门控，在ALFWorld上接近最佳（70.7%），但在WebShop上崩溃，得分为0.14，而ReAct为0.43。

6. 结果三：严格留出选择确保单调安全

第三，RSEA的严格留出选择（strict held-out selection）是使递归自进化单调安全的关键：它在任何基准测试上从未显著低于基础智能体的性能，并且在进化上下文可能有害时回退到普通ReAct。

7. 论文信息与引用

🔗 原文链接：https://arxiv.org/abs/2606.28374