数据与评估闭环：模型能力增强的系统化方法

1. 引言：模型能力与数据评估的鸿沟

模型能力是大语言模型（LLM）预训练中的核心变量，却从未被直接观测：数据前瞻性地塑造它，而评估仅能回顾性地揭示它，将样本、提示（prompt）、解码（decoding）和评分规则压缩成一个充满噪声的分数。实际优化是反向进行的：首先观察到失败，工程师必须推断出语料库的修复方案。双方使用不相容的词汇——基准名称和逐样本正确性 vs. 数据来源、领域和质量标签——因此这种推断通常依赖直觉，而非方法。

2. 能力切片：连接评估与数据的桥梁

我们通过“能力切片”（capability slice）来弥合这一差距：一组共享背景条件、任务类型、求解操作和输出约束的评估样本——它足够精确以定位单一弱点，又足够稳定以承受聚合，不像基准名称那样过于粗糙，也不像单个样本那样噪声过大。围绕这一单元构建的评估分类法（evaluation taxonomy）、非指令数据分类法（non-instruction data taxonomy）和映射规则（mapping rules）形成了一个闭环，将基准级别的失败转化为有针对性的、可测试的数据干预。

3. 闭环机制：从失败到数据干预的转化

该闭环的核心在于将评估结果与数据来源系统性地关联。评估分类法将基准测试分解为能力切片，每个切片对应特定的能力维度；非指令数据分类法则对预训练数据进行结构化标注，涵盖数据来源、领域和质量标签。映射规则定义了能力切片与数据分类之间的对应关系，使得当某个基准测试表现下降时，能够精准定位到相关的数据片段，从而指导数据修复或增强。

4. 案例研究一：数据排除——BBH下降的诊断与修复

我们通过两个方向相反的案例研究来测试该闭环。首先，闭环排除了数据问题：持续预训练导致BBH（Big-Bench Hard）下降-46.82%，但诊断将其追溯至单个掩码的< EOS >损失（masked <EOS> loss），而非推理能力减弱；恢复该损失后，BBH回升至66.44，超过原始检查点，且无需改变数据。

6. 结论：从直觉到可审计的实验验证

相同的未修改闭环在两个案例中得出了相反但正确的结论，表明从评估到数据的推断可以变得常规化、可审计且可实验验证，而非依赖直觉。这一方法为LLM预训练中的数据优化提供了系统化的框架，有望减少对专家经验的依赖，提升模型能力增强的效率和可靠性。

1. 引言：模型能力与数据评估的鸿沟

2. 能力切片：连接评估与数据的桥梁

3. 闭环机制：从失败到数据干预的转化

4. 案例研究一：数据排除——BBH下降的诊断与修复

5. 案例研究二：数据纳入——数学推理弱点的精准增强

其次，闭环纳入了数据干预：一个持续的数学推理弱点通过求解操作被分解为特定的失败组合，基于此构建的弱点定向采样程序（weakness-targeted sampling procedure）将AIME2025/AIME2026的Pass@128从6.67/0.00分别提升至26.67。

6. 结论：从直觉到可审计的实验验证

🔗 原文链接：https://arxiv.org/abs/2606.28471