数据与评估闭环:模型能力增强的系统化方法
1. 引言:模型能力与数据评估的鸿沟
模型能力是大语言模型(LLM)预训练中的核心变量,却从未被直接观测:数据前瞻性地塑造它,而评估仅能回顾性地揭示它,将样本、提示(prompt)、解码(decoding)和评分规则压缩成一个充满噪声的分数。实际优化是反向进行的:首先观察到失败,工程师必须推断出语料库的修复方案。双方使用不相容的词汇——基准名称和逐样本正确性 vs. 数据来源、领域和质量标签——因此这种推断通常依赖直觉,而非方法。
2. 能力切片:连接评估与数据的桥梁
我们通过“能力切片”(capability slice)来弥合这一差距:一组共享背景条件、任务类型、求解操作和输出约束的评估样本——它足够精确以定位单一弱点,又足够稳定以承受聚合,不像基准名称那样过于粗糙,也不像单个样本那样噪声过大。围绕这一单元构建的评估分类法(evaluation taxonomy)、非指令数据分类法(non-instruction data taxonomy)和映射规则(mapping rules)形成了一个闭环,将基准级别的失败转化为有针对性的、可测试的数据干预。
3. 闭环机制:从失败到数据干预的转化
该闭环的核心在于将评估结果与数据来源系统性地关联。评估分类法将基准测试分解为能力切片,每个切片对应特定的能力维度;非指令数据分类法则对预训练数据进行结构化标注,涵盖数据来源、领域和质量标签。映射规则定义了能力切片与数据分类之间的对应关系,使得当某个基准测试表现下降时,能够精准定位到相关的数据片段,从而指导数据修复或增强。
4. 案例研究一:数据排除——BBH下降的诊断与修复
我们通过两个方向相反的案例研究来测试该闭环。首先,闭环排除了数据问题:持续预训练导致BBH(Big-Bench Hard)下降-46.82%,但诊断将其追溯至单个掩码的< EOS >损失(masked <EOS> loss),而非推理能力减弱;恢复该损失后,BBH回升至66.44,超过原始检查点,且无需改变数据。
5. 案例研究二:数据纳入——数学推理弱点的精准增强
其次,闭环纳入了数据干预:一个持续的数学推理弱点通过求解操作被分解为特定的失败组合,基于此构建的弱点定向采样程序(weakness-targeted sampling procedure)将AIME2025/AIME2026的Pass@128从6.67/0.00分别提升至26.67。
6. 结论:从直觉到可审计的实验验证
相同的未修改闭环在两个案例中得出了相反但正确的结论,表明从评估到数据的推断可以变得常规化、可审计且可实验验证,而非依赖直觉。这一方法为LLM预训练中的数据优化提供了系统化的框架,有望减少对专家经验的依赖,提升模型能力增强的效率和可靠性。