Knowledge Distillation: enseñar a un modelo pequeño a pensar como uno grande

Thu, 04 Jun 2026 19:00:00 +0000

TL;DR

Knowledge Distillation es la técnica de entrenar un modelo pequeño (student) usando como supervisión las probabilidades de salida de un modelo grande (teacher), en vez de usando sólo las etiquetas duras del dataset de entrenamiento. El resultado es un modelo pequeño que razona mejor de lo que sugiere su tamaño, porque aprende las distribuciones de incertidumbre del teacher en vez de memorizar respuestas binarias. Es la razón por la que Phi-4 (14B) supera en razonamiento a la mayoría de modelos de 70B, y por la que los modelos de la familia Gemma 3 son sorprendentemente capaces para su tamaño. No es una técnica de compresión de modelo existente: es un proceso de entrenamiento que produce un modelo más pequeño desde cero o desde un punto de partida diferente.

La analogía

Un maestro cirujano con treinta años de experiencia y un residente de primer año. Si el residente sólo aprende del manual de anatomía —respuestas correctas binarias: “aquí se corta, aquí no”— tardará años en desarrollar el juicio clínico del maestro. Pero si opera a su lado, observando sus microdecisiones, sus dudas, los casos ambiguos donde el maestro sabe que dos opciones son casi igualmente válidas, aprende algo que el manual no puede enseñar: la estructura de la incertidumbre.

Knowledge distillation es exactamente eso. El “manual de anatomía” son las etiquetas duras (la respuesta correcta). El “maestro cirujano” es el teacher LLM. Las distribuciones de probabilidad sobre el vocabulario son la materialización de esa incertidumbre que el student absorbe.

Qué es realmente

Cuando un LLM genera texto, no produce una sola palabra: produce una distribución de probabilidad sobre todo su vocabulario en cada posición. Para el token siguiente, el modelo podría decir:

"París": 42%
"Lyon": 8%
"Marsella": 6%
"la ciudad": 5%
...resto del vocabulario: 39%

Esta distribución es información densa. Dice no sólo qué es la respuesta correcta, sino también qué otras respuestas eran plausibles y en qué medida. Un student entrenado sólo con la etiqueta “París” (probabilidad 1.0 al token correcto, 0.0 al resto) no ve esta riqueza.

Destilación usa la distribución completa del teacher como objetivo de entrenamiento del student. La función de pérdida tiene dos términos:

$$\mathcal{L}{total} = (1 - \alpha) \cdot \mathcal{L}{CE}(y, \hat{y}S) + \alpha \cdot \mathcal{L}{KD}(p_T, p_S, T)$$

Donde:

$\mathcal{L}_{CE}$ es la cross-entropy estándar con las etiquetas duras (supervisión clásica).
$\mathcal{L}_{KD}$ es la KL-divergencia entre las distribuciones del teacher y el student.
$\alpha$ controla el peso relativo de cada término (típicamente 0.5–0.9 a favor de KD).
$T$ es la temperatura, un parámetro que suaviza las distribuciones para hacer la señal de KD más informativa.

El papel de la temperatura

Si el teacher asigna 99% a “París” y 0.001% a cada otra palabra, la distribución es casi tan informativa como una etiqueta dura. La temperatura $T > 1$ suaviza esa distribución:

$$p_T(k) = \frac{\exp(z_k / T)}{\sum_j \exp(z_j / T)}$$

Con $T = 4$ y los logits originales, la distribución que antes era [99%, 0.001%, 0.001%…] pasa a ser algo como [42%, 8%, 6%…]. El student ve el vecindario de probabilidad real del teacher, no sólo su respuesta puntual.

Ejemplo numérico con temperatura:

Logits del teacher para “La capital de Francia es _____”:

París: 8.5
Lyon: 3.2
Europa: 2.1
una: 1.8

Con T=1 (softmax estándar): $$p(\text{París}) = \frac{e^{8.5}}{e^{8.5} + e^{3.2} + e^{2.1} + e^{1.8}} \approx 99.3%$$

Con T=4: $$p(\text{París}) = \frac{e^{8.5/4}}{e^{8.5/4} + e^{3.2/4} + e^{2.1/4} + e^{1.8/4}} = \frac{e^{2.125}}{e^{2.125} + e^{0.8} + e^{0.525} + e^{0.45}} \approx 54%$$

La señal con T=4 es mucho más informativa para el student: aprende que Lyon es más plausible que Europa, que Europa es más plausible que “una”, etcétera.

Los tres modos de destilación

Offline (o “black-box”)

El teacher genera un dataset sintético de respuestas antes del entrenamiento. El student se entrena sobre ese dataset como si fuera etiquetas duras normales.

teacher → genera 100M pares (prompt, completion) → dataset
student → se entrena sobre ese dataset

Es la forma más barata de escalar: el teacher se ejecuta una sola vez, el student se entrena sobre los datos generados con hardware convencional. La mayoría de los modelos de instrucción open source (Alpaca, Vicuna, WizardLM en sus primeras versiones) usaron esta estrategia: GPT-4 como teacher, datos guardados, Llama-7B como student.

Limitación: el student no ve las distribuciones de probabilidad del teacher, sólo sus respuestas. Es destilación de “comportamiento”, no de “conocimiento” en el sentido estricto. Si el teacher se equivoca (y GPT-4 se equivoca), el error queda cristalizado en el dataset.

Online (o “white-box”)

Teacher y student se ejecutan juntos durante el entrenamiento. El student procesa cada batch, el teacher procesa el mismo batch en paralelo, y la pérdida KD se calcula en tiempo real con las distribuciones de probabilidad completas.

for batch in dataset:
logits_teacher = teacher(batch) # forward pass del teacher
logits_student = student(batch) # forward pass del student
loss = KL(softmax(logits_teacher/T), softmax(logits_student/T))
loss.backward() # sólo actualiza student

El teacher tiene los gradientes desactivados (torch.no_grad()). La señal de aprendizaje es richer que en offline, pero el coste es alto: necesitas mantener el teacher en VRAM durante todo el entrenamiento. Para destilación de un teacher de 405B a un student de 8B, necesitarías varias H100 sólo para el teacher.

En-policy (on-policy)

Variante reciente (2024–2026) que combina lo mejor de ambos: el teacher genera respuestas dinámicamente durante el entrenamiento, pero el student las evalúa con su propia distribución. El ciclo es:

Student genera una propuesta de respuesta (rollout).
Teacher puntúa esa propuesta con su distribución de probabilidad.
El student actualiza con la señal del teacher.

Esto evita que el student aprenda de distribuciones fuera de su propio dominio (problema de distribution shift en offline). Es la base de algoritmos como SimCT (2026) que usan teachers de diferentes familias (Qwen, Phi, Gemma) para generar señal cross-tokenizer.

Por qué los mejores modelos pequeños usan destilación

Phi-4 (Microsoft, 14B), Gemma 3 (Google, 9B/27B), y los modelos de la familia Qwen3 compactos son los ejemplos más claros. Sus benchmarks son anómalos respecto a su tamaño: Phi-4-14B supera a LLaMA-3-70B en MATH y GPQA-Diamond, dos benchmarks de razonamiento matemático y científico donde el tamaño suele ser determinante.

¿Por qué? La clave está en qué supervisa el entrenamiento:

Un modelo entrenado con datos de internet aprende la distribución de texto humano, que incluye mucho texto de baja calidad, errores, ambigüedades.
Un student que aprende de un teacher frontier (GPT-4o, Claude 3 Opus, Gemini 1.5 Pro) absorbe una distribución filtrada hacia texto de alta calidad y razonamiento correcto.

El student con 14B parámetros no “sabe más” que uno sin destilación del mismo tamaño, pero ha aprendido a usarlos mejor porque sus gradientes de entrenamiento nunca estuvieron contaminados por texto de baja calidad.

Dato empírico: Phi-4 (14B destilado) vs LLaMA-3-70B (no destilado) en MATH benchmark (2025):

Phi-4: 80.4%
LLaMA-3-70B: 68.0%

Un modelo 5× más pequeño supera al grande porque la señal de entrenamiento es mejor, no porque tenga más parámetros.

Destilación de razonamiento: el caso de los thinking models

Los modelos de razonamiento (DeepSeek-R1, Qwen3-thinking, QwQ) generan cadenas de pensamiento internas antes de dar la respuesta final. Destilar razonamiento es más complejo porque no sólo se quiere transferir la respuesta: se quiere transferir la forma de pensar.

La estrategia actual (2025–2026) es destilación de trazas de razonamiento:

El teacher (modelo thinking grande) genera respuestas con su cadena de pensamiento interna completa.
El dataset incluye esas cadenas de pensamiento como parte del output.
El student aprende a imitar tanto la cadena como la respuesta final.

Esto explica por qué Qwen3-7B-thinking puede razonar formalmente sobre matemáticas siendo 10× más pequeño que los modelos que lo precedieron sin destilación: aprendió el proceso, no sólo el resultado.

Cuándo usar destilación vs. las alternativas

Técnica	Qué hace	Requiere reentrenamiento	Resultado
Quantización	Reduce precisión de pesos	No	Mismo modelo, más pequeño
Poda	Elimina pesos irrelevantes	No (PTQ)	Mismo modelo, más disperso
Destilación	Entrena modelo nuevo	Sí	Modelo diferente, más pequeño

La destilación no comprime un modelo existente: produce uno nuevo. Por eso es complementaria, no sustitutiva: puedes destilar un 405B a un 8B, y luego cuantizar ese 8B a INT4 para reducir su coste de inferencia.

Cuándo es la opción correcta:

Necesitas un modelo 5–10× más pequeño que el mejor disponible.
Tienes acceso (API o local) a un teacher de calidad.
Tienes datos de entrenamiento o capacidad de generarlos.
La latencia o el coste de inferencia son un constraint duro.

Cuándo no:

Quieres comprimir un modelo existente rápidamente: usa cuantización + poda.
No tienes presupuesto de entrenamiento (destilación online requiere semanas de GPU).
El teacher no es significativamente mejor que el student base: la señal de KD será débil.

Implicaciones para inferencia on-premise

En un despliegue soberano, el teacher puede ser un modelo grande que se ejecuta localmente (no es necesaria una API externa). El flujo es:

4×H100 genérico:
teacher: Llama-3.3-70B-Instruct (en los 4×H100, carga completa)
→ genera dataset de 10M pares (prompt, completion con logits)
→ 3-4 semanas de generación a batch 32
Después del dataset:
student: Qwen2.5-7B (fine-tuned con KD loss sobre el dataset)
→ 2-3 días de entrenamiento en los mismos H100
→ resultado: 7B que razona como el 70B en el dominio específico
Producción:
RTX 4090: sirve el student 7B cuantizado a INT4 (4 GB)

El teacher sólo se necesita para generar los datos. El student es lo que va a producción. La inversión en cómputo de entrenamiento se amortiza en meses de inferencia más barata.

Para ENS/NIS2: este flujo es 100% on-premise, cero dependencia de APIs externas, y el modelo resultante es tuyo en todos los sentidos.

Ver también

https://blog.lo0.es/posts/poda-pruning-llm-fundamentos/ — alternativa técnica: en vez de entrenar un modelo nuevo, eliminar partes del modelo existente; destilación y poda son complementarias
https://blog.lo0.es/posts/quantization-fundamentos-inferencia/ — el paso siguiente después de destilar: cuantizar el student para inferencia eficiente
https://blog.lo0.es/posts/speculative-decoding-fundamentos/ — los drafters de speculative decoding son frecuentemente students destilados del model base que aprenden a predecir su distribución
https://blog.lo0.es/posts/fine-tuning-continuo-produccion/ — destilación como forma de fine-tuning continuo: el teacher es el modelo en producción, el student es la siguiente versión
https://blog.lo0.es/posts/alignment-moderno-dpo-kto-orpo-simpo/ — DPO y sus variantes pueden verse como destilación de preferencias humanas hacia el modelo; la matemática de la distribución de referencia es análoga al teacher en KD

Referencias

Distilling the Knowledge in a Neural Network — Hinton, Vinyals & Dean, 2015 (paper fundacional)
Phi-4 Technical Report — Microsoft Research, 2024
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning — DeepSeek, 2025 (destilación de razonamiento)
Awesome LLM On-Policy Distillation — colección de papers de destilación en-policy, 2025–2026
Knowledge Distillation for LLMs: Survey — ICLR 2025

Student-Teacher on lo0 — Blog Técnico