Sglang | lo0 — Blog Técnico

2026

Comparativa de motores de serving LLM en frontera de Pareto: vLLM, SGLang, TRT-LLM y Dynamo

16 jun. 2026

Catálogo de herramientas de benchmark LLM: ficha práctica a fondo

14 jun. 2026

Servir modelos de razonamiento: el borrador invisible que decide tu latencia y tu factura

12 jun. 2026

Structured output: el formulario con desplegables que tacha respuestas inválidas antes de que el modelo elija — Outlines, XGrammar, LLGuidance y la matemática del bitmask

30 may. 2026

Continuous batching: la peluquería con 8 sillones que no espera al cliente lento — Orca, vLLM, chunked prefill y goodput

30 may. 2026

MoE inference: el call center con 256 especialistas y 8 atendiendo cada llamada — fundamentos, expert parallel y la economía de DeepSeek-V3

30 may. 2026

Speculative decoding: el secretario que adelanta lo que va a decir el jefe — fundamentos, matemáticas y estado mayo 2026

29 may. 2026

Operators de inferencia LLM en Kubernetes: OME, vLLM Production Stack, NVIDIA Dynamo y llm-d

18 may. 2026