Optimización | lo0 — Blog Técnico

2026

Prefix cache: ingeniería del hit rate para pasar del 15% al 75%

5 jun. 2026

Poda de modelos LLM: eliminar sin amputar

5 jun. 2026

Optimizando el prefill en vLLM: los knobs que tu TTFT no perdona

5 jun. 2026

Optimizando el decode en vLLM: exprimir cada token en hardware pequeño

5 jun. 2026

Knowledge Distillation: enseñar a un modelo pequeño a pensar como uno grande

5 jun. 2026

Instrumentar vLLM con OTel: medir lo que las optimizaciones realmente hacen

5 jun. 2026

Batch sizing en vLLM: el grid search de dos horas que vale semanas de hardware

5 jun. 2026