Inferencia | lo0 — Blog Técnico

2026

Coste, rendimiento y energía: los tres ejes de la inferencia LLM y la identidad que los une

13 jun. 2026

Servir modelos de razonamiento: el borrador invisible que decide tu latencia y tu factura

12 jun. 2026

Acelerar el cold start de modelos: de minutos a segundos

11 jun. 2026

Multimodal on-premise: servir un VLM con vLLM (visión + lenguaje)

11 jun. 2026

Servir embeddings y rerankers con TEI en producción

11 jun. 2026

Servir varios modelos en una sola GPU: co-residencia, model-swapping y sleep mode

11 jun. 2026

Compartir una GPU entre varias cargas: time-slicing, MPS y MIG

11 jun. 2026

RAG agresivo en modelos pequeños: compensar parámetros con recuperación

9 jun. 2026

Cuantización agresiva (estado del arte): del 4-bit al ternario

9 jun. 2026

Test-time quantization: cuantizar en caliente sin dataset de calibración

9 jun. 2026

Arquitecturas nativas para device: MoE de grano fino y pre-attention router

9 jun. 2026

Self-speculative decoding: el modelo que se adelanta a sí mismo

9 jun. 2026

El roofline se invierte: por qué optimizar modelos pequeños es otro partido de rendimiento

9 jun. 2026

Poda de modelos LLM: eliminar sin amputar

5 jun. 2026

Optimizando el prefill en vLLM: los knobs que tu TTFT no perdona

5 jun. 2026

Optimizando el decode en vLLM: exprimir cada token en hardware pequeño

5 jun. 2026

Knowledge Distillation: enseñar a un modelo pequeño a pensar como uno grande

5 jun. 2026

Instrumentar vLLM con OTel: medir lo que las optimizaciones realmente hacen

5 jun. 2026

Continuous batching: la peluquería con 8 sillones que no espera al cliente lento — Orca, vLLM, chunked prefill y goodput

30 may. 2026

Anatomía de un stack de inferencia LLM on-premise: las siete capas que tienen que sostenerse las unas a las otras

30 may. 2026

MoE inference: el call center con 256 especialistas y 8 atendiendo cada llamada — fundamentos, expert parallel y la economía de DeepSeek-V3

30 may. 2026

Speculative decoding: el secretario que adelanta lo que va a decir el jefe — fundamentos, matemáticas y estado mayo 2026

29 may. 2026

Quantization para inferencia LLM: FP8, INT4 (GPTQ, AWQ) y GGUF — el zoom contable del modelo

27 may. 2026

Disaggregated serving: prefill y decode en pods especializados

22 may. 2026

Operators de inferencia LLM en Kubernetes: OME, vLLM Production Stack, NVIDIA Dynamo y llm-d

18 may. 2026

vLLM en Kubernetes: la pieza de inferencia LLM que sí escala

18 may. 2026

KV cache: la memoria de trabajo que sostiene la inferencia LLM

18 may. 2026