Fundamentos | lo0 — Blog Técnico

2026

Acelerar el cold start de modelos: de minutos a segundos

11 jun. 2026

FinOps y multi-tenancy del cluster GPU: quién paga qué

11 jun. 2026

Multimodal on-premise: servir un VLM con vLLM (visión + lenguaje)

11 jun. 2026

Hardening y secretos del stack LLM soberano: defensa en profundidad

11 jun. 2026

GitOps del stack de inferencia con Flux: operar el asistente como código

11 jun. 2026

Servir embeddings y rerankers con TEI en producción

11 jun. 2026

Ingesta documental end-to-end: del PDF al chunk indexado

11 jun. 2026

Llevar el RAG a la CPU: separar el plano de datos del plano de generación

11 jun. 2026

Servir varios modelos en una sola GPU: co-residencia, model-swapping y sleep mode

11 jun. 2026

Compartir una GPU entre varias cargas: time-slicing, MPS y MIG

11 jun. 2026

El contratista con la llave maestra: aislar agentes de IA del workstation al cluster

9 jun. 2026

QLoRA y multi-LoRA al límite en modelos pequeños

9 jun. 2026

RAG agresivo en modelos pequeños: compensar parámetros con recuperación

9 jun. 2026

Cuantización agresiva (estado del arte): del 4-bit al ternario

9 jun. 2026

Test-time quantization: cuantizar en caliente sin dataset de calibración

9 jun. 2026

Arquitecturas nativas para device: MoE de grano fino y pre-attention router

9 jun. 2026

Self-speculative decoding: el modelo que se adelanta a sí mismo

9 jun. 2026

El roofline se invierte: por qué optimizar modelos pequeños es otro partido de rendimiento

9 jun. 2026

Los pasillos y el guardia de seguridad: topología PCIe, GPUDirect P2P y ACS

8 jun. 2026

El especialista del plato estrella: el backend de atención de vLLM (FlashAttention, FlashInfer y la asimetría prefill/decode)

8 jun. 2026

La despensa por casilleros: PagedAttention y el block manager de vLLM

8 jun. 2026

El pase: el jefe de sala que arma cada ronda — el scheduler step de vLLM

8 jun. 2026

El jefe que canta cada comanda: SMs, CUDA streams y CUDA graphs, o por qué la GPU se aburre generando tokens

7 jun. 2026

El montacargas de la despensa: del disco a la HBM, o por qué la cocina abre tarde

7 jun. 2026

La puerta de la cocina que el maître no miró: NUMA de red, Cilium eBPF y DRANET, la cuarta pata del pinning

6 jun. 2026

Elegir la centralita: qué gateway OSS poner por delante, y por qué la licencia decide antes que las features

6 jun. 2026

El maître que solo te sienta si cabéis en una mesa: CPU, Memory y Topology Manager en RKE2

6 jun. 2026

La planta de al lado: NUMA, hugepages y aislamiento de CPU, o por qué tu GPU espera al kernel

6 jun. 2026

La mesa compartida: NVLink, NVSwitch y NCCL, el cable por el que pasa cada token en tensor parallel

6 jun. 2026

Langfuse por dentro: el centro de clasificación que no debe convertirse en el cuello de botella que vino a observar

6 jun. 2026

Function calling y tool-augmented retrieval: el detective que sabe qué archivo pedir

4 jun. 2026

Ontologías y knowledge graphs en LLMOps: la nomenclatura linneana que sostiene las seis etapas del pipeline

3 jun. 2026

Embeddings en 2026: las tres familias (denso, esparso, multi-vector), el zoo de modelos y la decisión que importa en producción

3 jun. 2026

Runbooks de incident response para inferencia LLM: cada alerta a una acción concreta con Kafka y Keep

2 jun. 2026

Entornos mixtos NVIDIA + Intel para inferencia LLM: del cluster H100 central al NUC en la sucursal

2 jun. 2026

Anatomía de las doce métricas DCGM y cinco vLLM: analogías, anomalías documentadas y casos reales 2024-2026

2 jun. 2026

El router de inferencia LLM: la centralita L7 que en el post de canary llamábamos LoadBalancer

2 jun. 2026

Canary, blue-green y shadow para modelos LLM: cómo desplegar una versión nueva sin tirar el SLO

1 jun. 2026

Autoscaling de inferencia LLM en Kubernetes: HPA con custom metrics y KEDA para vLLM

1 jun. 2026

Observabilidad GPU para inferencia LLM: las doce métricas DCGM y vLLM que dictan la salud de tu producción

1 jun. 2026

Capacity planning para inferencia LLM on-premise: cómo dimensionar GPUs a partir de un SLO

1 jun. 2026

Controles técnicos: el mapeo cruzado ENS × ISO 42001 × EU AI Act sobre la arquitectura LLM on-premise

1 jun. 2026

ISO/IEC 42001: el manual de operaciones del sistema de IA — cómo encaja el AIMS sobre la plataforma LLM on-premise descrita en el blog

1 jun. 2026

EU AI Act: el expediente técnico artículo por artículo sobre la arquitectura LLM on-premise del blog

1 jun. 2026

LLM Guard: el traductor jurado con cuaderno de equivalencias — anatomía, scanners y su integración con Langfuse, vLLM y LiteLLM

1 jun. 2026

Guardrails y safety en LLMs: las cuatro líneas de defensa del request en producción

31 may. 2026

Siete fases de despliegue greenfield de una plataforma LLM on-premise: del hardware en la sala al primer token productivo

31 may. 2026

Cinco niveles de madurez de la plataforma debajo del LLM: del servidor con Linux al cluster listo para vLLM

31 may. 2026

Structured output: el formulario con desplegables que tacha respuestas inválidas antes de que el modelo elija — Outlines, XGrammar, LLGuidance y la matemática del bitmask

30 may. 2026

Continuous batching: la peluquería con 8 sillones que no espera al cliente lento — Orca, vLLM, chunked prefill y goodput

30 may. 2026

Anatomía de un stack de inferencia LLM on-premise: las siete capas que tienen que sostenerse las unas a las otras

30 may. 2026

Multi-LoRA serving: el traductor único con mil glosarios — base compartido, miles de adapters concurrentes y el kernel SGMV

30 may. 2026

MoE inference: el call center con 256 especialistas y 8 atendiendo cada llamada — fundamentos, expert parallel y la economía de DeepSeek-V3

30 may. 2026

FlashAttention v1/v2/v3/v4: el bibliotecario que nunca despeja la mesa — IO-awareness, async y la asimetría de Blackwell

29 may. 2026

Speculative decoding: el secretario que adelanta lo que va a decir el jefe — fundamentos, matemáticas y estado mayo 2026

29 may. 2026

Quantization para inferencia LLM: FP8, INT4 (GPTQ, AWQ) y GGUF — el zoom contable del modelo

27 may. 2026

Tracing LLM con OpenTelemetry GenAI: la caja negra del avión que el campo estabilizó en 2026

27 may. 2026

LLM-as-judge: el corrector de oposiciones que evalúa a otros modelos sin convertirse en oráculo

27 may. 2026

Alignment moderno: DPO, KTO, ORPO y SimPO — el sumiller que aprende sin recibir reward model

27 may. 2026

Reranker y hybrid retrieval: el comité que decide los 5 chunks que el LLM va a leer de verdad

25 may. 2026

RAG corpus curation: el bibliotecario activo que decide qué entra, qué sale y qué firma

25 may. 2026

Evals para LLMs: la capa después del tracing que decide si tu modelo rinde o sólo parece rendir

25 may. 2026

El catálogo OSS para LLMOps en seis etapas: ficha por ficha, qué hace cada herramienta y cuándo elegirla

23 may. 2026

El catálogo paralelo: las seis etapas LLMOps en open source y en los hyperscalers (AWS, GCP, Azure)

23 may. 2026

Anatomía de una petición LLM en producción, mayo 2026: tour por las seis etapas siguiendo una sola request

22 may. 2026

Data versioning para LLMOps: DVC, lakeFS y el reto del golden dataset reproducible

22 may. 2026

Retrain: cerrar el bucle entre el incidente en producción y el adapter que lo arregla

22 may. 2026

Prompt versioning: el contrato que evita que un cambio de cinco palabras hunda tu sistema

22 may. 2026

Disaggregated serving: prefill y decode en pods especializados

22 may. 2026

Fine-tuning continuo en producción: del tráfico real al adapter desplegado

21 may. 2026

El pipeline LLMOps de seis etapas: arquitectura global y deep dive en cada componente

21 may. 2026

MLOps específico para LLMs en 2026: el panorama de tres modalidades, seis etapas y diez herramientas que las hacen funcionar

21 may. 2026

KV cache: la memoria de trabajo que sostiene la inferencia LLM

18 may. 2026