GPTNT:多模态智能体在《保持通话,无人爆炸》中的实时协作基准测试
1. 论文基本信息
计算机科学 > 人工智能 arXiv:2606.28514 (cs) [提交于2026年6月26日] 标题:GPTNT:多模态智能体在《保持通话,无人爆炸》中的实时协作基准测试 作者:Amit Parekh, Sabrina McCallum, Kareem Al-Hasan, Malvina Nikandrou, Alessandro Suglia, Ioannis Konstas 查看论文PDF,标题为《GPTNT:多模态智能体在《保持通话,无人爆炸》中的实时协作基准测试》,作者:Amit Parekh等5人 查看PDF 摘要:多模态模型越来越多地被部署用于与人类或其他人工智能智能体协作完成任务。现有基准测试表明,这些模型具备许多所需的组件能力,但协作中同时出现的条件,包括时间压力、信息不对称和不完美沟通,通常被孤立地研究。我们引入了GPTNT,这是一个基于合作视频游戏《保持通话,无人爆炸》构建的基准测试,其中两个智能体必须协调,在实时倒计时中拆除程序生成的炸弹谜题。一个智能体可以看到并操作炸弹,但没有拆解说明;另一个智能体有说明,但看不到也无法操作炸弹。没有一个智能体可以单独成功:成功需要有效且高效的沟通。与基于回合的代理不同,GPTNT要求智能体异步行动并实时沟通。GPTNT旨在将协作与对记忆化解决方案的依赖分开:可以扣留说明手册、合作伙伴或两者,以隔离模型在当下推导出的内容与它已知的内容。我们表明,GPTNT对最先进的系统构成了重大挑战:我们测试的闭源或开源模型没有一个能实时拆除一个炸弹,而人类玩家可以轻松完成这一目标。通过受控实验,我们识别出在状态跟踪、时间压力下的高效行动、歧义处理和错误恢复方面的关键弱点。我们发布GPTNT作为协作性能的基准测试,当前评估尚未对此进行测量。由于它在真实游戏上运行,GPTNT受益于程序生成,并继承了一个活跃的模组社区,允许基准测试随着模型改进而演变,而不是被解决一次后就退役。
2. 引言:协作基准测试的空白
多模态模型(Multimodal models)正越来越多地被部署用于与人类或其他人工智能智能体协作完成任务。现有基准测试表明,这些模型具备许多所需的组件能力,但协作中同时出现的条件,包括时间压力(time pressure)、信息不对称(information asymmetry)和不完美沟通(imperfect communication),通常被孤立地研究。我们引入了GPTNT,这是一个基于合作视频游戏《保持通话,无人爆炸》(Keep Talking and Nobody Explodes)构建的基准测试,其中两个智能体必须协调,在实时倒计时中拆除程序生成的炸弹谜题。
3. 任务设计:信息不对称与实时协作
在GPTNT中,一个智能体可以看见并操作炸弹,但没有拆解说明;另一个智能体有说明,但看不见也无法操作炸弹。没有一个智能体可以单独成功:成功需要有效且高效的沟通。与基于回合的代理不同,GPTNT要求智能体异步行动并实时沟通。GPTNT旨在将协作与对记忆化解决方案的依赖分开:可以扣留说明手册、合作伙伴或两者,以隔离模型在当下推导出的内容与它已知的内容。
4. 实验发现:当前模型的重大挑战
我们表明,GPTNT对最先进的系统构成了重大挑战:我们测试的闭源或开源模型没有一个能实时拆除一个炸弹,而人类玩家可以轻松完成这一目标。通过受控实验,我们识别出在状态跟踪(state tracking)、时间压力下的高效行动(efficient action under time pressure)、歧义处理(ambiguity handling)和错误恢复(error recovery)方面的关键弱点。
5. 基准测试的发布与未来演进
我们发布GPTNT作为协作性能的基准测试,当前评估尚未对此进行测量。由于它在真实游戏上运行,GPTNT受益于程序生成(procedural generation),并继承了一个活跃的模组社区(modding community),允许基准测试随着模型改进而演变,而不是被解决一次后就退役。
6. 论文元数据与引用信息
评论:项目网站和代码见此URL 主题:人工智能 (cs.AI);计算与语言 (cs.CL) 引用为:arXiv:2606.28514 [cs.AI] (或 arXiv:2606.28514v1 [cs.AI] 用于此版本) https://doi.org/10.48550/arXiv.2606.28514 聚焦以了解更多 arXiv-issued DOI via DataCite (待注册) 提交历史:来自 Sabrina McCallum [查看邮件] [v1] 2026年6月26日星期五 18:09:36 UTC (37,637 KB) 全文链接:访问论文:查看论文PDF,标题为《GPTNT:多模态智能体在《保持通话,无人爆炸》中的实时协作基准测试》,作者:Amit Parekh等5人 查看PDF TeX源 查看许可证 当前浏览上下文:cs.AI 上一个 | 下一个 | 新 | 最近 | 2026-06 更改为浏览:cs cs.CL 参考文献 引用 NASA ADS Google Scholar Semantic Scholar 导出BibTeX引用 加载中... BibTeX格式引用加载中... 数据提供者:书签 书目工具 书目与引用工具 书目浏览器 切换书目浏览器 (什么是浏览器?) Connected Papers 切换Connected Papers (什么是Connected Papers?) Litmaps 切换Litmaps (什么是Litmaps?) scite.ai 切换scite智能引用 (什么是智能引用?) 代码、数据、媒体 与本文相关的代码、数据和媒体 alphaXiv 切换alphaXiv (什么是alphaXiv?) 代码链接 切换CatalyzeX代码查找器 (什么是CatalyzeX?) DagsHub 切换DagsHub (什么是DagsHub?) GotitPub 切换Gotit.pub (什么是GotitPub?) Huggingface 切换Hugging Face (什么是Huggingface?) ScienceCast 切换ScienceCast (什么是ScienceCast?) 演示 演示 Replicate 切换Replicate (什么是Replicate?) Spaces 切换Hugging Face Spaces (什么是Spaces?) Spaces 切换TXYZ.AI (什么是TXYZ.AI?) 相关论文 推荐与搜索工具 链接到影响力花 影响力花 (什么是影响力花?) 核心推荐器 切换CORE推荐器 (什么是CORE?) 作者 机构 主题 关于arXivLabs arXivLabs:与社区合作者的实验项目 arXivLabs是一个框架,允许合作者直接在我们的网站上开发和分享新的arXiv功能。与arXivLabs合作的个人和组织都接受并认同我们关于开放性、社区、卓越和用户数据隐私的价值观。arXiv致力于这些价值观,并只与遵守这些价值观的合作伙伴合作。有想法为arXiv社区增加价值的项目吗?了解更多关于arXivLabs的信息。这篇论文的作者中哪些是背书人?| 禁用MathJax (什么是MathJax?)