Leslie Lyu

🔗 原文链接：How much does distillation really matter for Chinese LLMs?

前言

背景介绍

Anthropic 于2月24日晚指责来自中国的三家大模型公司(Deepseek，月之暗面以及Minimax)对其旗下 Claude 模型进行刻意的大规模工业级蒸馏，引发热议.

人物介绍：Nathan Lambert

Nathan Lambert

Nathan Lambert 是一位在人工智能领域深具影响力的研究员与评论家，博士毕业于加州大学伯克利分校（UC Berkeley），目前担任 Allen Institute for AI (AI2) 的研究科学家。他以在强化学习（Reinforcement Learning），特别是 基于人类反馈的强化学习(RLHF) 方面的贡献而闻名。

“蒸馏”的定义

Nathan Lambert 指出，当前语境下的蒸馏本质上是一种数据合成（synthetic data），即从更强的模型中获得更加优质的输出，并引导自己的模型在面对相同的问题时输出相同的内容.

The distillation of today is better described generally as synthetic data. You take outputs from a stronger model, usually via an API, and you train your model to predict those.

蒸馏的作用

在 Nathan Lambert 眼中，蒸馏手段并不是是某种“作弊”，而是提升模型性能最标准且高效的工程手段. 实际上，摸索如何高效获取大量合成数据已然成为当下模型提升的日常工作.

在蒸馏手段被业界广泛使用的背景下，问题的核心自然转变为：

中国的模型究竟从对美国模型的蒸馏中获得了多大的性能提升？

How much of a performance benefit do Chinese labs get from distilling from American models?

换句话说，中国模型的优秀表现，究竟是"打铁自身硬"，还是对他人成果的窃取？

蒸馏的优势

在全球算力供应链受限的背景下，蒸馏已演变为一种极其有效的非对称竞争策略.

Distillation is a shortcut to more compute for anyone.

蒸馏对任何人而言都是一条获取算力的捷径. 当实验室因 GPU 供应受限而无法自主生成数据用于训练时，直接从领先模型的 API 中提取计算结果是最具性价比的选择. 客观来讲，这一策略同时被除开中国初创企业外的其他公司所广泛采用. 这一做法兼顾了经济与效率，要比打破层层封锁获得多块 GPU 要容易得多.

此外，企业自有模型间的内部蒸馏也已经得到了实践验证：Claude Sonnet 3.5 的成功很大程度上源于其对 Claude Opus 4.6 进行内部蒸馏(inner distillation). 这证明了通过极高质量的数据过滤和快速迭代，学生模型完全可以超越其老师模型.

核心观点

Nathan Lambert 用一句话回答了核心问题：

蒸馏行为对中国模型的能力爆发而言并非关键因素.

I still wouldn’t say it(distillation) is a crucial factor in these Chinese labs post-training capabilities.

中国拥有出色的强化学习基础设施，以支持更强的模型的训练，而这一过程无法通过蒸馏行为实现.
蒸馏行为仅仅有助于提升模型在某些特定垂直领域的表现，而非其 general performance，将中国模型的成功完全归功于蒸馏行为是片面的、武断的.
全盘的、盲目的蒸馏往往会引入不可预测的偏差，使蒸馏本身成为一个极具风险的科研课题. 假设中国模型仅仅依赖蒸馏进行训练，那么中国模型并不太可能取得今天的成绩.

未来展望

在技术上，蒸馏行为通过调用外部模型 API 实现，对蒸馏行为的“围追堵截”需要通过禁用模型 API 实现.

然而，这种限制并不容易实现. API 可以被视为 AI 领域的基本产品供给，任何一个领先实验室都不会轻易放弃.

此外，采用进一步限制 GPU 使用的方式颇具“宁可错杀一千，不可放过一个”的意味，并不具备可落地性.

因此，对外部模型的蒸馏以及对自有模型的内部蒸馏，在可预见的未来中将继续作为一种主要的进一步优化模型表现的手段存在.

中国模型在多大程度上依赖对外国模型的蒸馏？