通过留出选择实现递归自进化智能体
1. 研究背景与问题
大型语言模型(LLM)智能体越来越多地通过进化自然语言工件(如反思、工作流、操作手册、速查表或优化提示)来改进,而无需权重更新,这些工件用于调节冻结策略。此类方法通常被报道为在它们所帮助的单一基准测试上取得了胜利。我们对它们进行了公平比较,并揭示了一幅更清晰的图景。
2. RSEA方法介绍
我们引入了RSEA(Recursive Self-Evolving Agent,递归自进化智能体),它携带一个紧凑的三层自然语言状态:一个命令式策略、可复用技能和一个程序性操作手册。在代际进化中,RSEA从其自身的轨迹中重写所有三层,并且仅当候选者在不相交的留出分割(held-out split)上没有退化时,才通过严格的保持更好门控(keep-better gate)提交该候选者。
3. 实验设置与基准
在四个不同的基准测试(ALFWorld、GAIA、τ-bench和WebShop)以及六个忠实基线(ReAct、Reflexion、GEPA、AWM、ACE和Dynamic Cheatsheet)上,所有方法均在一个共享的本地骨干网络上进行评估,我们发现了三个主要结果。
4. 结果一:无通用最优工件
首先,没有一种工件是普遍最优的。RSEA是ALFWorld上最强的单次方法,达到69.3%,而ReAct为64.6%(McNemar检验,p=0.015),并且通过重试达到79.4%,这是整体最佳结果。然而,以AWM为代表的具体工作流归纳方法在强骨干工具使用任务上表现最佳。
5. 结果二:无保护的上下文进化风险高
其次,无保护的上下文进化(unguarded context evolution)具有高方差且不安全。Dynamic Cheatsheet在线整理上下文而不使用留出门控,在ALFWorld上接近最佳(70.7%),但在WebShop上崩溃,得分为0.14,而ReAct为0.43。
6. 结果三:严格留出选择确保单调安全
第三,RSEA的严格留出选择(strict held-out selection)是使递归自进化单调安全的关键:它在任何基准测试上从未显著低于基础智能体的性能,并且在进化上下文可能有害时回退到普通ReAct。
7. 论文信息与引用
主题:人工智能(cs.AI)。引用格式:arXiv:2606.28374 [cs.AI](或此版本的arXiv:2606.28374v1 [cs.AI])。DOI:https://doi.org/10.48550/arXiv.2606.28374。提交历史:来自Michael Nguyen [查看电子邮件] [v1] 2026年6月17日星期三14:53:36 UTC(257 KB)。全文链接:访问论文,查看PDF,HTML(实验性),TeX源码,查看许可。当前浏览上下文:cs.AI 上一页 | 下一页 | 新 | 最近 | 2026-06。更改浏览至:cs。参考文献:引用,NASA ADS,Google Scholar,Semantic Scholar。导出BibTeX引用。数据提供:书签,书目工具,代码、数据与媒体,演示,相关论文推荐与搜索工具,作者、机构、主题。关于arXivLabs:arXivLabs是一个框架,允许合作者直接在我们的网站上开发和共享新的arXiv功能。与arXivLabs合作的个人和组织都接受并认可我们关于开放、社区、卓越和用户数据隐私的价值观。arXiv致力于这些价值观,并仅与遵守这些价值观的合作伙伴合作。有想法为arXiv社区增加价值的项目吗?了解更多关于arXivLabs的信息。这篇论文的作者中哪些是背书人?| 禁用MathJax。