<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Paged-Attention on lo0 — Blog Técnico</title><link>https://blog.lo0.es/tags/paged-attention/</link><description>Recent content in Paged-Attention on lo0 — Blog Técnico</description><generator>Hugo -- gohugo.io</generator><language>es</language><lastBuildDate>Mon, 18 May 2026 15:00:00 +0200</lastBuildDate><atom:link href="https://blog.lo0.es/tags/paged-attention/index.xml" rel="self" type="application/rss+xml"/><item><title>PagedAttention por dentro: bloques, tabla de páginas, evicción y el estado del arte del KV cache en 2026</title><link>https://blog.lo0.es/posts/pagedattention-deep-dive/</link><pubDate>Mon, 18 May 2026 15:00:00 +0200</pubDate><guid>https://blog.lo0.es/posts/pagedattention-deep-dive/</guid><description>&lt;h2 id="tldr">TL;DR&lt;/h2>
&lt;p>PagedAttention (Kwon et al., SOSP 2023) fue la idea que convirtió la gestión del KV cache de un problema de &lt;strong>malloc clásico&lt;/strong> —reservar contiguo, malgastar el 60-80%— en un problema resuelto &lt;strong>como lo resuelven los sistemas operativos desde hace medio siglo&lt;/strong>: bloques pequeños de tamaño fijo, una tabla de páginas por proceso, asignación bajo demanda. El paper midió un desperdicio menor al 4% y 2-4× más throughput agregado en el mismo hardware. Tres años después, PagedAttention sigue siendo el modelo mental dominante, pero su implementación literal ya no es la de ningún sistema de inferencia serio: la propia documentación de vLLM califica al paper original de &amp;ldquo;documento histórico&amp;rdquo;. Han llegado &lt;strong>vAttention&lt;/strong> (paginar usando la MMU de CUDA, no la indirección software), &lt;strong>EvicPress&lt;/strong> (combinar compresión y evicción), &lt;strong>KVTC&lt;/strong> (transform coding del cache), &lt;strong>LaProx&lt;/strong> (evicción como aproximación matricial), &lt;strong>disaggregated serving&lt;/strong> (prefill y decode en GPUs distintas, en producción en NVIDIA Dynamo, llm-d, Mooncake y media docena más), &lt;strong>RadixAttention&lt;/strong> de SGLang (trie de prefijos compartidos, con hit rates del 85% en cargas de agentes) y la nueva generación de &lt;strong>speculative decoding&lt;/strong> (EAGLE-3, DeepSeek MTP, Mirror Speculative). Este artículo desmonta PagedAttention al nivel del bloque, explica qué hace vLLM hoy en su lugar, y traza el mapa del estado del arte para que no te pierdas eligiendo entre quince siglas en la primera reunión.&lt;/p>
&lt;blockquote>
&lt;p>Este artículo cierra una mini-serie. El primero —&lt;a href="https://blog.lo0.es/posts/kv-cache-fundamentos/">KV cache: la memoria de trabajo que sostiene la inferencia LLM&lt;/a>— explicó por qué cada token consume VRAM. El segundo —&lt;a href="https://blog.lo0.es/posts/vllm-kubernetes/">vLLM en Kubernetes: la pieza de inferencia LLM que sí escala&lt;/a>— mostró cómo se sirve eso en producción. Éste baja al fondo: cómo se gestiona el cache &lt;strong>dentro&lt;/strong> del motor, y qué hay después de PagedAttention.&lt;/p>
&lt;/blockquote>
&lt;h2 id="la-analogía-pasar-de-malloc-al-kernel-multiproceso">La analogía: pasar de &lt;code>malloc()&lt;/code> al kernel multiproceso&lt;/h2>
&lt;p>Un programa C ingenuo pide memoria con &lt;code>malloc(N)&lt;/code> y recibe un bloque contiguo de N bytes. Si pide muchos bloques de tamaños distintos y los libera en cualquier orden, el heap se llena de huecos: hay tres megabytes libres en total, pero ningún hueco contiguo de un megabyte, y el siguiente &lt;code>malloc(1MB)&lt;/code> falla. Fragmentación externa. Si reserva siempre el peor caso &amp;ldquo;para estar seguro&amp;rdquo; —&lt;code>malloc(MAX_POSSIBLE_SIZE)&lt;/code>— el heap se queda lleno con bloques medio vacíos. Fragmentación interna.&lt;/p>
&lt;p>Los sistemas operativos modernos no permiten que eso pase con la memoria virtual de un proceso. La memoria virtual se divide en &lt;strong>páginas&lt;/strong> (4 KB típicamente), cada una asignada a un &lt;strong>marco físico&lt;/strong> en RAM mediante una &lt;strong>tabla de páginas&lt;/strong> específica del proceso. El proceso ve un espacio contiguo enorme; el SO lo respalda con marcos físicos dispersos, asignados bajo demanda y liberados cuando dejan de usarse. El concepto tiene 50 años y funciona.&lt;/p>
&lt;p>Antes de PagedAttention, &lt;strong>los motores de inferencia LLM eran programas C ingenuos&lt;/strong>. Cada sesión reservaba un bloque contiguo de KV cache dimensionado al peor caso &lt;code>max_context_len × bytes_per_token × n_layers × 2&lt;/code>. Una conversación que usa 273 tokens reservaba sitio para 32 768. Cuando el motor servía 50 sesiones simultáneas, el 60-80% de la VRAM dedicada a KV cache estaba reservada y vacía. El paper de PagedAttention midió este desperdicio en cargas reales y propuso lo evidente: tratar el KV cache como &lt;strong>memoria virtual&lt;/strong>. Bloques físicos pequeños (16 tokens), tabla de páginas por sesión, asignación bajo demanda. El resultado: &amp;lt; 4% de desperdicio, 2-4× más throughput agregado en el mismo hardware.&lt;/p>
&lt;p>La idea no era nueva fuera del mundo LLM, era nueva &lt;strong>dentro&lt;/strong>. Y eso vale como contribución: a veces traer una técnica madura de otro campo es más impactante que inventar algo desde cero.&lt;/p>
&lt;h2 id="el-paper-original-en-cristiano">El paper original, en cristiano&lt;/h2>
&lt;p>Kwon et al. publicaron &lt;em>Efficient Memory Management for Large Language Model Serving with PagedAttention&lt;/em> en SOSP 2023 e implementaron simultáneamente vLLM, que en seis meses pasó de proyecto académico a &amp;ldquo;el motor de inferencia que todo el mundo usa&amp;rdquo;. Las tres aportaciones del paper, en orden de importancia:&lt;/p>
&lt;ol>
&lt;li>&lt;strong>Cuantificación del problema&lt;/strong>: medir el desperdicio en sistemas existentes y mostrar que el 60-80% de la VRAM se estaba quemando en &lt;em>peor-caso reservations&lt;/em> que no se usaban.&lt;/li>
&lt;li>&lt;strong>El algoritmo de paging&lt;/strong>: cómo dividir el KV cache, qué tamaño de bloque elegir, cómo gestionar la tabla de páginas en GPU.&lt;/li>
&lt;li>&lt;strong>El kernel CUDA&lt;/strong>: cómo implementar la operación de atención cuando los tokens de una secuencia están dispersos por la VRAM, sin destruir el rendimiento.&lt;/li>
&lt;/ol>
&lt;h3 id="el-modelo-de-bloques">El modelo de bloques&lt;/h3>
&lt;p>El KV cache se divide en bloques de tamaño fijo. La elección por defecto en vLLM es &lt;strong>16 tokens por bloque&lt;/strong>, decisión que el paper justifica con un barrido empírico: bloques más pequeños reducen la fragmentación interna pero aumentan el overhead de metadata y de indirección; bloques más grandes mejoran throughput pero pierden eficiencia. 16 es el punto razonable para los modelos y cargas medidas.&lt;/p>
&lt;p>Cada bloque almacena los &lt;strong>K y V de N tokens consecutivos&lt;/strong> de &lt;strong>una sola sesión&lt;/strong> en &lt;strong>una sola capa&lt;/strong> del modelo. Para un Llama 3 8B con 32 capas, una sesión de 128 tokens necesita aproximadamente &lt;code>128 / 16 × 32 = 256 bloques&lt;/code> (uno por capa por grupo de 16 tokens). Los bloques son lógicamente independientes entre sí: pueden vivir en cualquier dirección física de VRAM.&lt;/p>
&lt;h3 id="la-tabla-de-páginas-block-table">La tabla de páginas (block table)&lt;/h3>
&lt;p>Cada sesión tiene asociada una &lt;strong>block table&lt;/strong>: una lista ordenada de identificadores de bloques físicos. Cuando vLLM calcula la atención para el token 200 de la sesión X, mira la block table de X, encuentra que el bloque que contiene el token 200 está en la posición &lt;code>200 / 16 = 12&lt;/code> de la lista, lee qué bloque físico corresponde y va a buscarlo.&lt;/p>
&lt;p>La block table vive en VRAM, no en RAM como la tabla de páginas del SO. Si viviese en CPU, cada paso de decode tendría que hacer una indirección PCIe, lo que mataría el throughput. Está en VRAM, junto al cache, y el kernel CUDA la lee como una estructura más durante el cómputo.&lt;/p>
&lt;div class="diagram" style="max-width:720px;margin:1.5rem auto;">
&lt;svg viewBox="0 0 720 280" xmlns="http://www.w3.org/2000/svg" role="img" aria-label="Block table apuntando a bloques físicos dispersos">
&lt;style>.title{font:600 13px sans-serif;fill:#222}.lbl{font:11px sans-serif;fill:#444}.bt{fill:#ffe9d6;stroke:#666}.blk{fill:#d6eaff;stroke:#666}.free{fill:#eee;stroke:#bbb;stroke-dasharray:3 2}.arr{stroke:#888;stroke-width:1.2;fill:none;marker-end:url(#ah)}&lt;/style>
&lt;defs>&lt;marker id="ah" viewBox="0 0 10 10" refX="9" refY="5" markerWidth="6" markerHeight="6" orient="auto">&lt;path d="M0,0 L10,5 L0,10 z" fill="#888"/>&lt;/marker>&lt;/defs>
&lt;text x="120" y="20" text-anchor="middle" class="title">Block table (sesión X)&lt;/text>
&lt;text x="500" y="20" text-anchor="middle" class="title">VRAM (pool de bloques físicos)&lt;/text>
&lt;rect x="40" y="40" width="160" height="22" class="bt"/>&lt;text x="120" y="56" text-anchor="middle" class="lbl">posición 0 → bloque #7&lt;/text>
&lt;rect x="40" y="65" width="160" height="22" class="bt"/>&lt;text x="120" y="81" text-anchor="middle" class="lbl">posición 1 → bloque #2&lt;/text>
&lt;rect x="40" y="90" width="160" height="22" class="bt"/>&lt;text x="120" y="106" text-anchor="middle" class="lbl">posición 2 → bloque #11&lt;/text>
&lt;rect x="40" y="115" width="160" height="22" class="bt"/>&lt;text x="120" y="131" text-anchor="middle" class="lbl">posición 3 → bloque #5&lt;/text>
&lt;rect x="40" y="140" width="160" height="22" class="bt"/>&lt;text x="120" y="156" text-anchor="middle" class="lbl">posición 4 → bloque #9&lt;/text>
&lt;rect x="300" y="40" width="60" height="22" class="free"/>&lt;text x="330" y="56" text-anchor="middle" class="lbl">#0 libre&lt;/text>
&lt;rect x="365" y="40" width="60" height="22" class="free"/>&lt;text x="395" y="56" text-anchor="middle" class="lbl">#1 libre&lt;/text>
&lt;rect x="430" y="40" width="60" height="22" class="blk"/>&lt;text x="460" y="56" text-anchor="middle" class="lbl">#2 sesión X&lt;/text>
&lt;rect x="495" y="40" width="60" height="22" class="blk"/>&lt;text x="525" y="56" text-anchor="middle" class="lbl">#3 sesión Y&lt;/text>
&lt;rect x="560" y="40" width="60" height="22" class="blk"/>&lt;text x="590" y="56" text-anchor="middle" class="lbl">#4 sesión Z&lt;/text>
&lt;rect x="625" y="40" width="60" height="22" class="blk"/>&lt;text x="655" y="56" text-anchor="middle" class="lbl">#5 sesión X&lt;/text>
&lt;rect x="300" y="70" width="60" height="22" class="blk"/>&lt;text x="330" y="86" text-anchor="middle" class="lbl">#6 sesión Y&lt;/text>
&lt;rect x="365" y="70" width="60" height="22" class="blk"/>&lt;text x="395" y="86" text-anchor="middle" class="lbl">#7 sesión X&lt;/text>
&lt;rect x="430" y="70" width="60" height="22" class="free"/>&lt;text x="460" y="86" text-anchor="middle" class="lbl">#8 libre&lt;/text>
&lt;rect x="495" y="70" width="60" height="22" class="blk"/>&lt;text x="525" y="86" text-anchor="middle" class="lbl">#9 sesión X&lt;/text>
&lt;rect x="560" y="70" width="60" height="22" class="blk"/>&lt;text x="590" y="86" text-anchor="middle" class="lbl">#10 sesión Z&lt;/text>
&lt;rect x="625" y="70" width="60" height="22" class="blk"/>&lt;text x="655" y="86" text-anchor="middle" class="lbl">#11 sesión X&lt;/text>
&lt;path class="arr" d="M200,51 L365,51"/>
&lt;path class="arr" d="M200,76 L430,51"/>
&lt;path class="arr" d="M200,101 L625,76"/>
&lt;path class="arr" d="M200,126 L625,51"/>
&lt;path class="arr" d="M200,151 L495,81"/>
&lt;text x="360" y="200" text-anchor="middle" class="lbl">los bloques de una misma sesión están dispersos; la block table reconstruye su orden lógico&lt;/text>
&lt;text x="360" y="225" text-anchor="middle" class="lbl">cuando un bloque queda libre (sesión termina), vuelve al pool y otra sesión lo ocupa en el siguiente paso&lt;/text>
&lt;/svg>
&lt;/div>
&lt;p>Cuando una sesión genera su token N-ésimo, vLLM mira si el último bloque de la block table aún tiene huecos (&lt;code>N mod 16 != 0&lt;/code>). Si los tiene, escribe ahí. Si no, pide un bloque nuevo del &lt;strong>pool global&lt;/strong>, lo añade al final de la block table y escribe en su primera posición. Crecer la sesión cuesta &lt;strong>una asignación O(1) en el pool global más una append O(1) a la block table&lt;/strong>. Liberar una sesión devuelve sus bloques al pool: también O(N_bloques) y rapidísimo.&lt;/p>
&lt;h3 id="el-pool-de-bloques">El pool de bloques&lt;/h3>
&lt;p>El pool global se dimensiona al arrancar el motor. Lo típico:&lt;/p>
&lt;pre tabindex="0">&lt;code>bloques_disponibles = (VRAM_total - modelo - activations - overhead) / block_size_bytes
&lt;/code>&lt;/pre>&lt;p>Para una RTX 4090 (24 GB) sirviendo Llama 3 8B BF16 con cache también en BF16:&lt;/p>
&lt;pre tabindex="0">&lt;code>modelo: ~16 GB
activations: ~1.5 GB
overhead vLLM: ~1 GB
disponible para KV cache: ~5.5 GB
block_size = 16 tokens × 32 capas × 2 (K,V) × 8 KV heads × 128 head_dim × 2 bytes = 2 MB
bloques disponibles ≈ 5.5 GB / 2 MB ≈ 2800 bloques
tokens cacheables totales (todas sesiones) ≈ 2800 × 16 = 44800 ≈ 44 K tokens
&lt;/code>&lt;/pre>&lt;p>Si una sola sesión pide 32 K tokens, ocupa 2 000 bloques (de 2 800). Si las sesiones son más cortas, caben más simultáneas. El pool es &lt;strong>un recurso compartido global&lt;/strong>, no per-sesión, y ahí está la clave del aprovechamiento.&lt;/p>
&lt;h3 id="copy-on-write-para-sampling-paralelo">Copy-on-write para sampling paralelo&lt;/h3>
&lt;p>Una sutileza elegante del paper: cuando una petición usa sampling paralelo o beam search, las N secuencias &lt;strong>comparten el prefijo&lt;/strong> (el prompt + lo que se haya generado hasta el punto de divergencia). En lugar de duplicar el KV cache de ese prefijo, vLLM hace que las N secuencias &lt;strong>compartan los bloques físicos&lt;/strong> vía la block table. Solo cuando una secuencia diverge —genera un token distinto que las otras— vLLM &lt;strong>copia el último bloque&lt;/strong> afectado (no toda la secuencia) y la rama esa pasa a tener su propia versión.&lt;/p>
&lt;p>Esto es exactamente lo que hace el kernel de Linux con &lt;code>fork()&lt;/code>: copy-on-write de las páginas. La memoria solo se duplica cuando se modifica. En beam search con N=4 y prefijos largos, el ahorro es enorme.&lt;/p>
&lt;h3 id="el-kernel-cuda">El kernel CUDA&lt;/h3>
&lt;p>El reto técnico no obvio: el cómputo de atención &lt;strong>debe seguir la indirección de la block table&lt;/strong> para cada token. En la versión naïve (cache contiguo), el kernel asume que los tokens 0..N-1 de la sesión X están en direcciones contiguas y los lee de un tirón. Con paging, los tokens 0..15 están en el bloque #7, los 16..31 en el #2, los 32..47 en el #11, etc.&lt;/p>
&lt;p>El kernel &lt;code>paged_attention&lt;/code> de vLLM resuelve esto con &lt;strong>block-aware tiling&lt;/strong>: divide el cómputo de atención en chunks alineados con el tamaño de bloque (16 tokens), y para cada chunk localiza el bloque físico vía la block table y lo procesa. Es más complejo que el kernel contiguo, pero el coste medido es solo &lt;strong>5-10% de latencia adicional&lt;/strong> frente a la operación contigua equivalente, contra una ganancia de 2-4× en throughput agregado por la mejor utilización de VRAM. Compromiso aplastante.&lt;/p>
&lt;h2 id="evicción-y-preemption-qué-hace-cuando-el-pool-se-agota">Evicción y preemption: qué hace cuando el pool se agota&lt;/h2>
&lt;p>El KV cache crece. Cada token nuevo en cualquier sesión consume bloques. En un servidor con tráfico alto, el pool global se vacía. ¿Qué hacer cuando llega una nueva petición y no hay bloques libres?&lt;/p>
&lt;p>Tres opciones: &lt;strong>rechazar&lt;/strong> la petición (mala UX), &lt;strong>bloquear&lt;/strong> hasta que algo se libere (mala latencia), o &lt;strong>expulsar&lt;/strong> alguna sesión existente para hacer sitio (preemption). vLLM elige la tercera, con dos estrategias seleccionables:&lt;/p>
&lt;h3 id="estrategia-1-recompute">Estrategia 1: recompute&lt;/h3>
&lt;p>Cuando vLLM expulsa una sesión, &lt;strong>libera todos sus bloques&lt;/strong> y la pone en cola de espera. Cuando vuelve a haber sitio (otras sesiones terminan), vLLM rehace el prefill entero de la sesión expulsada desde el prompt original. El KV cache se reconstruye desde cero.&lt;/p>
&lt;p>Ventaja: liberación instantánea, no consume bandwidth de PCIe.
Coste: la sesión rehace &lt;strong>todo el cómputo del prefill&lt;/strong>, segundos o decenas de segundos para prompts largos.&lt;/p>
&lt;h3 id="estrategia-2-swap">Estrategia 2: swap&lt;/h3>
&lt;p>vLLM mueve los bloques de la sesión expulsada &lt;strong>a RAM de CPU&lt;/strong> (vía PCIe), liberando la VRAM. Cuando la sesión vuelva a tocar, vLLM la trae de vuelta a VRAM.&lt;/p>
&lt;p>Ventaja: conserva el cache, no rehace cómputo.
Coste: tiempo de transferencia PCIe (~32 GB/s en PCIe gen4 x16). Mover 4 GB de KV cache cuesta ~125 ms ida y vuelta.&lt;/p>
&lt;p>vLLM elige entre las dos en función del tamaño del cache de la sesión y de la latencia esperada. Para sesiones cortas, recompute suele ganar; para sesiones largas con prompts grandes, swap. Es configurable con &lt;code>--swap-space&lt;/code>.&lt;/p>
&lt;h3 id="el-problema-de-la-preemption-agresiva">El problema de la preemption agresiva&lt;/h3>
&lt;p>Hay un fallo de modo: si el sistema está saturado y vLLM no para de expulsar y reincorporar las mismas sesiones, todas hacen poco progreso y el throughput se hunde. Este es &lt;strong>thrashing&lt;/strong>, exactamente el mismo problema que tiene un SO cuando la presión de paginación es muy alta.&lt;/p>
&lt;p>La solución operativa es la misma que en SO: &lt;strong>admission control&lt;/strong>. Configurar &lt;code>--max-num-seqs&lt;/code> para limitar cuántas sesiones puede atender vLLM simultáneamente. Si llegan más, esperan en la cola HTTP. Mejor tener 10 sesiones avanzando rápido que 100 thrasheando.&lt;/p>
&lt;h2 id="lo-que-vllm-hace-hoy-más-allá-del-paper-original">Lo que vLLM hace hoy: más allá del paper original&lt;/h2>
&lt;p>La documentación oficial de vLLM señala que el &lt;a href="https://docs.vllm.ai/en/latest/design/paged_attention/">paper de PagedAttention es ya un documento histórico&lt;/a> que &lt;strong>ya no describe la implementación actual&lt;/strong>. ¿Qué ha cambiado?&lt;/p>
&lt;h3 id="chunked-prefill-integrado-con-paged-kv">Chunked prefill integrado con paged KV&lt;/h3>
&lt;p>El kernel original asumía que el prefill ocupaba el batch entero un paso, y el decode ocupaba batches separados. El motor actual mezcla prefill (troceado en chunks) con decode en el mismo paso, usando el mismo paged KV cache para ambos. Esto mejora la utilización de tensor cores cuando hay pocas peticiones en prefill y muchas en decode.&lt;/p>
&lt;h3 id="prefix-caching-cross-session">Prefix caching cross-session&lt;/h3>
&lt;p>El paper original ya tenía copy-on-write para sampling paralelo en una sola petición. La extensión natural fue compartir bloques de prefijo entre &lt;strong>peticiones distintas&lt;/strong> que llegan con el mismo system prompt. En vLLM se activa con &lt;code>--enable-prefix-caching&lt;/code>. Es una versión más simple que la de SGLang (no usa radix tree explícito, hace hash de bloques) pero efectiva: 30-70% mejora de TTFT en cargas con prompts compartidos.&lt;/p>
&lt;h3 id="sliding-window-attention">Sliding window attention&lt;/h3>
&lt;p>Modelos como Mistral 7B usan atención con ventana deslizante: solo atienden a los últimos K tokens (4 096 en Mistral). El motor mantiene únicamente los bloques de la ventana activa, liberando los más viejos. Esto cambia la economía: para esos modelos, el cache no crece sin límite.&lt;/p>
&lt;h3 id="flashattention-3-paged">FlashAttention-3 paged&lt;/h3>
&lt;p>Las versiones recientes de FlashAttention (especialmente FA-3) tienen kernels paged-aware optimizados para Hopper (H100). vLLM los usa por defecto en H100 cuando están disponibles, con ganancias adicionales del 15-30% sobre el kernel paged original.&lt;/p>
&lt;h2 id="vattention-paging-sin-reescribir-el-kernel">vAttention: paging sin reescribir el kernel&lt;/h2>
&lt;p>El paper de &lt;a href="https://arxiv.org/abs/2405.04437">vAttention (Prabhu et al., arxiv 2405.04437)&lt;/a> hace una observación incómoda: el coste de PagedAttention no es solo el 5-10% del kernel. Hay dos costes ocultos:&lt;/p>
&lt;ol>
&lt;li>&lt;strong>Inadaptable a kernels nuevos&lt;/strong>: cada vez que sale una optimización de atención (FlashAttention-2, FlashAttention-3, kernel custom), hay que &lt;strong>reescribir su versión paged&lt;/strong>. Eso ha hecho que vLLM frecuentemente esté 1-2 versiones por detrás del frente de FlashAttention.&lt;/li>
&lt;li>&lt;strong>Block tables en VRAM&lt;/strong>: pequeño pero constante. Para muchas sesiones, las block tables ocupan VRAM y cuestan accesos.&lt;/li>
&lt;/ol>
&lt;p>La propuesta de vAttention: usar &lt;strong>CUDA Virtual Memory Management (VMM)&lt;/strong>, las primitivas de virtual memory que NVIDIA expone desde CUDA 11.2. Con VMM puedes &lt;strong>reservar un rango virtual contiguo enorme&lt;/strong> y &lt;strong>asignar memoria física bajo demanda&lt;/strong> en porciones, mapeándolas en posiciones del rango virtual. El kernel de atención ve un rango contiguo (no necesita ser paged-aware); el runtime mete el paging dentro de la API de CUDA.&lt;/p>
&lt;p>Resultado medido en el paper: hasta &lt;strong>1.99× decode throughput&lt;/strong> sobre vLLM con FlashAttention-2 original. Y el kernel de atención es el de FlashAttention estándar, sin modificar.&lt;/p>
&lt;p>La idea es disruptiva porque sugiere que &lt;strong>la abstracción del paper de PagedAttention era inadecuada&lt;/strong>: el problema nunca fue que el cache tenía que ser físicamente paginado, sino que la asignación tenía que ser dinámica. La forma de resolverlo es delegar el paging al hardware (MMU + VMM de CUDA), no implementarlo en software.&lt;/p>
&lt;p>vAttention no ha desplazado a PagedAttention en vLLM por inercia y por consideraciones de portabilidad (VMM no está disponible en GPUs AMD ni Intel; PagedAttention sí). Pero los runtimes nuevos —y algunos forks de vLLM— ya lo están adoptando. Es plausible que en 2027 sea el default.&lt;/p>
&lt;h2 id="compresión-y-evicción-inteligente-lo-que-ha-llegado-en-2025-2026">Compresión y evicción inteligente: lo que ha llegado en 2025-2026&lt;/h2>
&lt;p>PagedAttention y vAttention atacan &lt;strong>dónde&lt;/strong> vive el cache. Otra línea de trabajo ataca &lt;strong>qué&lt;/strong> vive en el cache: si no necesitas todo el KV de un contexto largo, ¿por qué guardarlo todo?&lt;/p>
&lt;h3 id="streamingllm-xiao-et-al-2024-los-attention-sinks">StreamingLLM (Xiao et al., 2024): los attention sinks&lt;/h3>
&lt;p>El precursor conceptual. Observación: los primeros 4 tokens de cualquier contexto reciben atención desproporcionada de los tokens posteriores, incluso cuando semánticamente no son relevantes (son &amp;ldquo;sinks&amp;rdquo; para que el softmax se normalice). Si descartas todo el cache excepto los primeros 4 tokens más una ventana deslizante de los últimos K, el modelo sigue generando con calidad razonable indefinidamente.&lt;/p>
&lt;p>Impacto: permite &lt;strong>contexto efectivamente infinito&lt;/strong> con cache acotado. Coste: olvido real del contenido medio.&lt;/p>
&lt;h3 id="h2o-snapkv-2024-eviction-por-attention-score">H2O, SnapKV (2024): eviction por attention score&lt;/h3>
&lt;p>Variantes que mantienen un score acumulado de atención por token y, cuando el cache se llena, descartan los tokens con menor score. Son métodos por sesión, no por sistema: cada sesión decide qué partes de su propio cache descartar.&lt;/p>
&lt;h3 id="evicpress-microsoft-research-2026">EvicPress (Microsoft Research, 2026)&lt;/h3>
&lt;p>El paper &lt;a href="https://arxiv.org/abs/2512.14946">EvicPress: Joint KV-Cache Compression and Eviction for Efficient LLM Serving&lt;/a> hace una observación elegante: hasta ahora, evicción y compresión se han tratado como técnicas separadas. &lt;strong>Si vas a expulsar un bloque, ¿por qué no comprimirlo y guardarlo en RAM o NVMe en lugar de tirarlo?&lt;/strong> Y si lo tienes comprimido en un tier más lento, ¿cuándo merece la pena descomprimirlo y volver a HBM?&lt;/p>
&lt;p>EvicPress modela el problema como &lt;strong>optimización conjunta&lt;/strong> sobre múltiples tiers de almacenamiento (HBM, RAM, NVMe), aplica compresión lossy a los bloques candidatos a evicción y mantiene metadata para decidir cuándo trasladar de un tier a otro. Resultados: &lt;strong>2.19× faster TTFT&lt;/strong> a igual calidad de generación.&lt;/p>
&lt;p>La idea importa porque cambia el framing: el KV cache deja de ser &amp;ldquo;está o no está&amp;rdquo; para pasar a ser &amp;ldquo;está, en qué tier, con qué fidelidad&amp;rdquo;. Es directamente análogo a la jerarquía de caches L1/L2/L3 en CPUs.&lt;/p>
&lt;h3 id="kv-cache-transform-coding-kvtc-2026">KV Cache Transform Coding (KVTC, 2026)&lt;/h3>
&lt;p>&lt;a href="https://arxiv.org/abs/2511.01815">KV Cache Transform Coding for Compact Storage in LLM Inference (arxiv 2511.01815)&lt;/a> aplica al KV cache una técnica clásica de compresión de imágenes y vídeo: &lt;strong>transform coding&lt;/strong>, similar a DCT en JPEG/MPEG. Descompone los bloques de KV en una base de transformadas, descarta los coeficientes de menor energía y guarda el resto. Testeado con Llama 3, Mistral NeMo y R1-Qwen 2.5, &lt;strong>supera a quantization (INT4) y a SVD&lt;/strong> como métodos de compresión del cache. Importante: el resultado es &lt;strong>un cache comprimido reutilizable&lt;/strong>, no comprimido on-the-fly cada vez.&lt;/p>
&lt;h3 id="laprox-2026">LaProx (2026)&lt;/h3>
&lt;p>&lt;a href="https://arxiv.org/abs/2605.07234">LaProx: Reformulating KV Cache Eviction Problem for Long-Context LLM Inference (arxiv 2605.07234)&lt;/a> reformula la evicción de KV cache. Hasta ahora la mayoría de métodos son &lt;strong>head-wise y por promedios&lt;/strong> —miran scores por cabeza de atención y los promedian para decidir qué descartar—. LaProx la convierte en un problema &lt;strong>output-aware&lt;/strong> y &lt;strong>layer-wise&lt;/strong>: aproximar la multiplicación entre los attention maps y los projected value states como una matriz que se puede comprimir minimizando el error en la salida real del modelo, no en métricas auxiliares.&lt;/p>
&lt;p>La consecuencia práctica: las decisiones de evicción mejoran porque están alineadas con lo que realmente afecta a la generación, no con un proxy.&lt;/p>
&lt;h2 id="disaggregated-serving-separar-prefill-de-decode">Disaggregated serving: separar prefill de decode&lt;/h2>
&lt;p>PagedAttention y derivados optimizan &lt;strong>un motor&lt;/strong> sirviendo peticiones mezcladas. La siguiente revolución conceptual fue darse cuenta de que &lt;strong>prefill y decode no deberían correr en la misma GPU&lt;/strong>.&lt;/p>
&lt;h3 id="el-problema-de-mezclarlos">El problema de mezclarlos&lt;/h3>
&lt;p>Prefill es &lt;em>compute-bound&lt;/em>: usa los tensor cores intensamente. Decode es &lt;em>memory-bound&lt;/em>: mueve el KV cache a través del HBM. Si los mezclas en el mismo batch, una de las dos fases siempre va a ralentizar a la otra. Si entra una petición con prompt de 32 K tokens mientras hay 50 sesiones en decode, el prefill pausa a todas durante un segundo o más. Si llega una avalancha de prefills, los decodes en curso ven su latencia de token siguiente subir.&lt;/p>
&lt;h3 id="distserve-zhong-et-al-2024">DistServe (Zhong et al., 2024)&lt;/h3>
&lt;p>&lt;a href="https://arxiv.org/abs/2401.09670">DistServe (arxiv 2401.09670)&lt;/a> propuso lo evidente: &lt;strong>dedicar GPUs distintas a prefill y a decode&lt;/strong>. Las peticiones llegan a una GPU de prefill, que procesa el prompt y produce el KV cache inicial; ese KV cache se &lt;strong>transfiere&lt;/strong> a una GPU de decode, que se encarga de generar los tokens uno a uno. Resultado: &lt;strong>7.4× más goodput&lt;/strong>, o el mismo throughput con SLO 12.6× más estrictos.&lt;/p>
&lt;p>El truco no obvio es la transferencia del KV cache entre nodos. En GPUs con NVLink/NVSwitch del mismo nodo es trivial (~300 GB/s). Entre nodos con InfiniBand, el coste es manejable pero no despreciable. DistServe asume topologías que lo soporten.&lt;/p>
&lt;h3 id="splitwise-microsoft-2024">Splitwise (Microsoft, 2024)&lt;/h3>
&lt;p>&lt;a href="https://www.microsoft.com/en-us/research/publication/splitwise-efficient-generative-llm-inference-using-phase-splitting/">Splitwise&lt;/a> llevó la idea un paso más allá: &lt;strong>GPUs heterogéneas&lt;/strong>. Los prefills, compute-bound, corren en H100 o A100 (compute-optimizadas). Los decodes, memory-bound, corren en GPUs con más memoria por dólar pero menor compute (algunas variantes datacenter). Ganancia: &lt;strong>1.4× más throughput por dólar&lt;/strong>.&lt;/p>
&lt;h3 id="2026-producción">2026: producción&lt;/h3>
&lt;p>Disaggregated serving es ya &lt;strong>producción mainstream&lt;/strong>:&lt;/p>
&lt;ul>
&lt;li>&lt;strong>NVIDIA Dynamo&lt;/strong> (sucesor de Triton): primitivo nativo.&lt;/li>
&lt;li>&lt;strong>vLLM&lt;/strong>: soporta disaggregation con flags &lt;code>--disaggregation-prefill-instances&lt;/code> / &lt;code>--disaggregation-decode-instances&lt;/code>.&lt;/li>
&lt;li>&lt;strong>SGLang&lt;/strong>, &lt;strong>Ray Serve LLM&lt;/strong>, &lt;strong>llm-d&lt;/strong>, &lt;strong>LMCache&lt;/strong>, &lt;strong>Mooncake&lt;/strong>: idem.&lt;/li>
&lt;li>Operadores con stacks propios: Fireworks, Perplexity, Meta, Amazon, Modular, DeepInfra, Weka.&lt;/li>
&lt;/ul>
&lt;p>&lt;a href="https://haoailab.com/blogs/distserve-retro/">&lt;em>Disaggregated Inference: 18 Months Later&lt;/em> (Hao AI Lab, 2026)&lt;/a> hace una retrospectiva: lo que en 2024 era investigación es, en 2026, &amp;ldquo;como tener separados webservers de bases de datos&amp;rdquo;. Asumido.&lt;/p>
&lt;h3 id="ppd-no-todos-los-prefills-son-iguales-2026">PPD: no todos los prefills son iguales (2026)&lt;/h3>
&lt;p>El refinamiento más reciente: &lt;a href="https://arxiv.org/pdf/2603.13358">Not All Prefills Are Equal: PPD Disaggregation for Multi-turn LLM Serving (arxiv 2603.13358)&lt;/a>. Observación: en cargas multi-turn (asistentes conversacionales, agentes), los &amp;ldquo;prefills&amp;rdquo; sucesivos tienen estructura distinta: el primer turno es prompt nuevo, los siguientes son extensiones del cache anterior. PPD discrimina entre tipos de prefill y los enruta a clusters distintos, mejorando aún el aprovechamiento.&lt;/p>
&lt;h2 id="radixattention-el-camino-alternativo-sglang">RadixAttention: el camino alternativo (SGLang)&lt;/h2>
&lt;p>Mientras vLLM iteraba sobre PagedAttention con prefix caching basado en hashing, &lt;a href="https://github.com/sgl-project/sglang">SGLang&lt;/a> tomó otra ruta: &lt;strong>mantener un trie (radix tree) explícito de todos los prefijos que existen actualmente en el cache&lt;/strong>.&lt;/p>
&lt;h3 id="la-idea">La idea&lt;/h3>
&lt;p>Cuando llega una petición nueva con tokens &lt;code>[t1, t2, t3, ..., tN]&lt;/code>, SGLang baja por el trie tokens-a-tokens. Si los primeros K tokens del prompt coinciden con un camino del trie, esos K tokens &lt;strong>ya tienen su KV cache calculado&lt;/strong> y se reutilizan. Solo se procesa el prefill de los tokens N-K restantes.&lt;/p>
&lt;p>Esto es prefix caching, pero con una estructura de datos que captura &lt;strong>todas las relaciones de prefijo entre todas las sesiones activas simultáneamente&lt;/strong>, no solo los matches exactos de hash. Si dos peticiones comparten 137 tokens iniciales, RadixAttention lo encuentra; si una tercera comparte 89, también.&lt;/p>
&lt;h3 id="eviction-inteligente-del-trie">Eviction inteligente del trie&lt;/h3>
&lt;p>Los nodos del trie tienen un score basado en cuántas veces se han usado recientemente y cuántos descendientes tienen. Cuando hay presión de memoria, SGLang descarta los nodos menos valiosos primero, manteniendo los caminos más &amp;ldquo;calientes&amp;rdquo;. Esto es LRU + un peso por reutilización potencial.&lt;/p>
&lt;h3 id="resultados">Resultados&lt;/h3>
&lt;p>&lt;a href="https://arxiv.org/pdf/2312.07104">El paper de SGLang&lt;/a> y benchmarks posteriores reportan &lt;strong>hasta 6.4× throughput vs sin prefix caching&lt;/strong>, y un gap consistente del &lt;strong>29%&lt;/strong> sobre el prefix caching basado en hash de vLLM en cargas mixtas. En cargas con prefijos muy compartidos (agentes ReAct, multi-tenant SaaS, repo Q&amp;amp;A con system prompt común), los hit rates llegan al &lt;strong>60-85%&lt;/strong> y el ahorro de coste por petición es de &lt;strong>5-12×&lt;/strong>.&lt;/p>
&lt;h3 id="producción">Producción&lt;/h3>
&lt;p>SGLang está en producción en xAI (sirviendo Grok 3) y Microsoft Azure (DeepSeek R1 en GPUs AMD), entre otros. No es un experimento; es un sistema de inferencia maduro.&lt;/p>
&lt;h3 id="cuándo-elegirlo-sobre-vllm">Cuándo elegirlo sobre vLLM&lt;/h3>
&lt;p>Para cargas con prefijos compartidos masivos y predecibles, &lt;strong>SGLang gana claramente&lt;/strong>. Para cargas genéricas mezcladas, &lt;strong>vLLM rinde mejor por simplicidad operativa&lt;/strong>. El criterio operativo: si tu hit rate de prefix caching estimado en vLLM pasaría del 50%, plantéate SGLang.&lt;/p>
&lt;h2 id="speculative-decoding-la-dimensión-ortogonal">Speculative decoding: la dimensión ortogonal&lt;/h2>
&lt;p>PagedAttention y sus sucesores optimizan &lt;strong>dónde y cómo&lt;/strong> vive el cache. Speculative decoding ataca &lt;strong>cómo se generan los tokens&lt;/strong>, ortogonalmente al cache. La idea genérica: usar un modelo pequeño y rápido para &lt;em>adivinar&lt;/em> varios tokens por adelantado, validarlos en paralelo con el modelo grande y aceptar los que coinciden.&lt;/p>
&lt;h3 id="eagle-3-2025">EAGLE-3 (2025)&lt;/h3>
&lt;p>&lt;a href="https://huggingface.co/papers/2401.15077">EAGLE-3 (huggingface.co/papers/2401.15077, versión 3 de 2025)&lt;/a> entrena una cabeza auto-regresiva pequeña que se condiciona en &lt;strong>tres puntos del hidden state del modelo target&lt;/strong> (early, middle, late layers) en lugar de solo en el último. Esta fusión tri-layer es la razón por la que EAGLE-3 supera a EAGLE-2 en un &lt;strong>20-40%&lt;/strong>. Latencia medida: &lt;strong>2-6× speedup&lt;/strong> según tamaño de modelo y batch.&lt;/p>
&lt;h3 id="medusa-y-deepseek-mtp">Medusa y DeepSeek MTP&lt;/h3>
&lt;p>Medusa fija N cabezas de decodificación adicionales al modelo, cada una prediciendo posición +1, +2, +3. DeepSeek-V3 ships con MTP (Multi-Token Prediction) nativo, n=4, &lt;strong>entrenado conjuntamente&lt;/strong> con el modelo principal (no es un drafter externo). En inferencia, basta un flag en SGLang o vLLM (&lt;code>--speculative-model deepseek-v3-mtp&lt;/code>) y obtienes &lt;strong>1.8× speedup out of the box&lt;/strong>, sin entrenar nada adicional, sin pesos extras que hospedar.&lt;/p>
&lt;h3 id="mirror-speculative-decoding-2025">Mirror Speculative Decoding (2025)&lt;/h3>
&lt;p>&lt;a href="https://arxiv.org/pdf/2510.13161">Mirror Speculative Decoding (arxiv 2510.13161)&lt;/a> ataca un límite que se daba por dado: la verificación de los tokens especulados sigue siendo serial dentro del modelo target. Mirror Decoding reorganiza el cómputo para &lt;strong>paralelizar también la verificación&lt;/strong>, rompiendo la barrera serial del paradigma original. Las ganancias añadidas dependen del modelo y del batch, pero el paper lo posiciona como el próximo paso de la trayectoria EAGLE → EAGLE-2 → EAGLE-3.&lt;/p>
&lt;h3 id="estado-en-2026">Estado en 2026&lt;/h3>
&lt;p>Speculative decoding &lt;strong>dejó de ser optimización experimental en 2026&lt;/strong> para convertirse en &lt;strong>capa por defecto de cualquier stack serio&lt;/strong>. Combinado con KV cache optimizado, los números reportados son &lt;strong>2.8× menos latencia&lt;/strong> y &lt;strong>47% menos coste por token&lt;/strong>.&lt;/p>
&lt;p>Caveat operativo: speculative decoding es contraproducente en cargas de baja concurrencia. Si el modelo target tiene poco batch para llenar la GPU, las cabezas especulativas no compensan su overhead. Por debajo de ~4 sesiones simultáneas, suele bajar el throughput. Por encima, lo sube. Mídelo en tu carga antes de activarlo.&lt;/p>
&lt;h2 id="implicaciones-operativas-el-config-2026-para-vllm">Implicaciones operativas: el config 2026 para vLLM&lt;/h2>
&lt;p>Si en 2026 montas vLLM en producción sin pensar mucho, los flags razonables por defecto son:&lt;/p>
&lt;div class="highlight">&lt;pre tabindex="0" class="chroma">&lt;code class="language-yaml" data-lang="yaml">&lt;span class="line">&lt;span class="cl">&lt;span class="nt">args&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w">&lt;/span>- --&lt;span class="l">model=...&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w">&lt;/span>- --&lt;span class="l">tensor-parallel-size=N&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w">&lt;/span>- --&lt;span class="l">max-model-len=...&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w">&lt;/span>- --&lt;span class="l">kv-cache-dtype=fp8 &lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="c"># cuantización del cache&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w">&lt;/span>- --&lt;span class="l">enable-prefix-caching &lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="c"># ahorro fácil en cargas con prompts compartidos&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w">&lt;/span>- --&lt;span class="l">enable-chunked-prefill &lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="c"># mejor mezcla prefill/decode&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w">&lt;/span>- --&lt;span class="l">gpu-memory-utilization=0.92 &lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="c"># ya cubierto en el post anterior&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w">&lt;/span>- --&lt;span class="l">speculative-model=... &lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="c"># SI batch sostenido &amp;gt;4&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w">&lt;/span>- --&lt;span class="l">num-speculative-tokens=4 &lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="c"># acompaña al anterior&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w">&lt;/span>- --&lt;span class="l">max-num-seqs=128 &lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="c"># admission control para evitar thrashing&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w">&lt;/span>- --&lt;span class="l">preemption-mode=recompute &lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="c"># o swap si sesiones largas&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;/code>&lt;/pre>&lt;/div>&lt;p>Para cargas con prefijos masivamente compartidos (agentes), considera &lt;strong>migrar a SGLang&lt;/strong>: el delta de eficiencia compensa la curva de aprendizaje. Para cargas de baja latencia con modelos estables (entrenados in-house, no cambias cada semana), &lt;strong>TensorRT-LLM&lt;/strong> sigue ganando en latencia pura. Para todo lo demás —que es la mayoría—, vLLM con los flags de arriba está dentro del 10% del óptimo en throughput.&lt;/p>
&lt;p>Para arquitecturas grandes (&amp;gt;100 sesiones concurrentes, SLO estricto), &lt;strong>disaggregated serving&lt;/strong> ya no es opcional. NVIDIA Dynamo o llm-d como orquestadores; vLLM o SGLang como motores debajo. La división típica: 1 nodo de prefill por cada 3-4 de decode, ajustando ratios según la longitud media de los prompts.&lt;/p>
&lt;h2 id="trampas-y-mitos-comunes">Trampas y mitos comunes&lt;/h2>
&lt;h3 id="pagedattention-vs-vattention-como-dilema">&amp;ldquo;PagedAttention vs vAttention&amp;rdquo; como dilema&lt;/h3>
&lt;p>No es un dilema. vAttention es una optimización de runtime; el modelo mental sigue siendo paging. La elección es entre dos implementaciones del mismo concepto. Operativamente: si tienes la versión de vLLM que lo soporta y CUDA VMM disponible, vAttention da más throughput; si no, paged va perfectamente.&lt;/p>
&lt;h3 id="cache-compression-sin-probar-calidad">&amp;ldquo;Cache compression sin probar calidad&amp;rdquo;&lt;/h3>
&lt;p>La industria de papers de compresión es prolífica y los benchmarks varían enormemente entre los del autor y los reales en producción. Compresión 8× &lt;em>parece&lt;/em> mágico hasta que mides degradación en tu corpus real. &lt;strong>Siempre evalúa con tus datos antes de activar compresión agresiva.&lt;/strong> Un FP8 cache es seguro casi siempre. Un INT4 cache requiere medir caso por caso.&lt;/p>
&lt;h3 id="prefix-caching-con-prompts-no-determinísticos">&amp;ldquo;Prefix caching con prompts no determinísticos&amp;rdquo;&lt;/h3>
&lt;p>Si tu pipeline inyecta timestamps, IDs únicos o cualquier variabilidad en el system prompt, &lt;strong>el hit rate de prefix caching se cae a cero&lt;/strong>. Es la trampa más común. Para que funcione, los prompts compartidos deben ser &lt;strong>bit-a-bit idénticos&lt;/strong>. Estructura los prompts en capas: parte estática primero, variable al final.&lt;/p>
&lt;h3 id="speculative-decoding-en-cargas-bajas">&amp;ldquo;Speculative decoding en cargas bajas&amp;rdquo;&lt;/h3>
&lt;p>Ya lo mencionamos: por debajo de ~4 sesiones simultáneas, speculative suele ser contraproducente. Si tu carga es batch puro o muy esporádica, &lt;strong>no la actives&lt;/strong>.&lt;/p>
&lt;h3 id="disaggregated-en-cluster-sin-red-rápida">&amp;ldquo;Disaggregated en cluster sin red rápida&amp;rdquo;&lt;/h3>
&lt;p>Si tu inter-nodo es Ethernet 25 GbE o peor, la transferencia del KV cache entre prefill y decode se convierte en cuello de botella. Disaggregation es para clusters con InfiniBand o RoCE 100/200/400 GbE. Sin eso, mejor colocated.&lt;/p>
&lt;h2 id="lo-que-no-hemos-cubierto">Lo que no hemos cubierto&lt;/h2>
&lt;p>Hay terreno suficiente para otra serie:&lt;/p>
&lt;ul>
&lt;li>&lt;strong>Mooncake (Kimi/Moonshot, 2024+)&lt;/strong>: KV cache como &lt;strong>pool compartido entre instancias&lt;/strong>, persistente en RAM/NVMe. Producción real con cientos de millones de queries.&lt;/li>
&lt;li>&lt;strong>LMCache&lt;/strong>: cache de KV persistente en disco entre arranques de vLLM. Reduce el coste de los primeros tokens en cargas con repetición temporal.&lt;/li>
&lt;li>&lt;strong>vLLM Production Stack&lt;/strong>: distribución k8s-native de vLLM con HPA, métricas, multi-modelo, ya probada en producción a escala.&lt;/li>
&lt;li>&lt;strong>Inference scheduling teórico&lt;/strong>: hay literatura aplicando CFS-like algorithms (el scheduler de Linux) al LLM serving. Promete fairness multi-tenant medible. Aún en fase académica.&lt;/li>
&lt;li>&lt;strong>Quantization del modelo combinada con quantization del cache&lt;/strong>: AWQ/GPTQ sobre los pesos + FP8 sobre el cache + INT4 sobre cache evictado. La pirámide completa.&lt;/li>
&lt;/ul>
&lt;h2 id="referencias">Referencias&lt;/h2>
&lt;p>Los papers fundacionales y las extensiones más leídas, en orden cronológico:&lt;/p>
&lt;ul>
&lt;li>Kwon et al., &lt;a href="https://arxiv.org/abs/2309.06180">&lt;em>Efficient Memory Management for Large Language Model Serving with PagedAttention&lt;/em>&lt;/a> (SOSP 2023) — paper original.&lt;/li>
&lt;li>Dao et al., &lt;a href="https://arxiv.org/abs/2307.08691">&lt;em>FlashAttention-2&lt;/em>&lt;/a> (2023) y &lt;em>FlashAttention-3&lt;/em> (2024) — kernels de atención sobre los que vLLM y vAttention apoyan.&lt;/li>
&lt;li>Xiao et al., &lt;a href="https://arxiv.org/abs/2309.17453">&lt;em>Efficient Streaming Language Models with Attention Sinks&lt;/em>&lt;/a> (StreamingLLM, 2024).&lt;/li>
&lt;li>Zhong et al., &lt;a href="https://arxiv.org/abs/2401.09670">&lt;em>DistServe: Disaggregating Prefill and Decoding for Goodput-optimized LLM Serving&lt;/em>&lt;/a> (OSDI 2024).&lt;/li>
&lt;li>Patel et al., &lt;a href="https://www.microsoft.com/en-us/research/publication/splitwise-efficient-generative-llm-inference-using-phase-splitting/">&lt;em>Splitwise: Efficient Generative LLM Inference Using Phase Splitting&lt;/em>&lt;/a> (Microsoft, 2024).&lt;/li>
&lt;li>Li et al., &lt;a href="https://huggingface.co/papers/2401.15077">&lt;em>EAGLE: Speculative Sampling Requires Rethinking Feature Uncertainty&lt;/em>&lt;/a> (2024) y EAGLE-2/3 (2024-2025).&lt;/li>
&lt;li>Prabhu et al., &lt;a href="https://arxiv.org/abs/2405.04437">&lt;em>vAttention: Dynamic Memory Management for Serving LLMs without PagedAttention&lt;/em>&lt;/a> (Microsoft, 2024-2025).&lt;/li>
&lt;li>Zheng et al., &lt;a href="https://arxiv.org/pdf/2312.07104">&lt;em>SGLang: Efficient Execution of Structured Language Model Programs&lt;/em>&lt;/a> (RadixAttention, 2024).&lt;/li>
&lt;li>DeepSeek-AI, &lt;a href="https://arxiv.org/abs/2412.19437">&lt;em>DeepSeek-V3 Technical Report&lt;/em>&lt;/a> (2024) — MTP nativo, base de speculative decoding del estado del arte.&lt;/li>
&lt;li>&lt;a href="https://arxiv.org/pdf/2510.13161">&lt;em>Mirror Speculative Decoding: Breaking the Serial Barrier in LLM Inference&lt;/em>&lt;/a> (2025).&lt;/li>
&lt;li>&lt;a href="https://arxiv.org/abs/2511.01815">&lt;em>KV Cache Transform Coding for Compact Storage in LLM Inference&lt;/em>&lt;/a> (KVTC, 2026).&lt;/li>
&lt;li>&lt;a href="https://arxiv.org/abs/2512.14946">&lt;em>EvicPress: Joint KV-Cache Compression and Eviction for Efficient LLM Serving&lt;/em>&lt;/a> (Microsoft Research, 2026).&lt;/li>
&lt;li>&lt;a href="https://arxiv.org/abs/2605.07234">&lt;em>LaProx: Reformulating KV Cache Eviction Problem for Long-Context LLM Inference&lt;/em>&lt;/a> (2026).&lt;/li>
&lt;li>&lt;a href="https://arxiv.org/pdf/2603.13358">&lt;em>Not All Prefills Are Equal: PPD Disaggregation for Multi-turn LLM Serving&lt;/em>&lt;/a> (2026).&lt;/li>
&lt;/ul>
&lt;p>Operacional:&lt;/p>
&lt;ul>
&lt;li>&lt;a href="https://docs.vllm.ai/en/latest/design/paged_attention/">vLLM Paged Attention design doc&lt;/a> — la propia doc señala que el paper original es ya &amp;ldquo;historical&amp;rdquo;.&lt;/li>
&lt;li>&lt;a href="https://haoailab.com/blogs/distserve-retro/">Disaggregated Inference: 18 Months Later&lt;/a> — Hao AI Lab @ UCSD, retrospectiva de la transición a disaggregated.&lt;/li>
&lt;li>&lt;a href="https://www.marktechpost.com/2026/04/29/top-10-kv-cache-compression-techniques-for-llm-inference-reducing-memory-overhead-across-eviction-quantization-and-low-rank-methods/">Top 10 KV Cache Compression Techniques for LLM Inference&lt;/a> — survey reciente útil como mapa.&lt;/li>
&lt;li>Artículos anteriores en este blog: &lt;a href="https://blog.lo0.es/posts/kv-cache-fundamentos/">KV cache: la memoria de trabajo que sostiene la inferencia LLM&lt;/a> y &lt;a href="https://blog.lo0.es/posts/vllm-kubernetes/">vLLM en Kubernetes: la pieza de inferencia LLM que sí escala&lt;/a>.&lt;/li>
&lt;/ul></description></item><item><title>vLLM en Kubernetes: la pieza de inferencia LLM que sí escala</title><link>https://blog.lo0.es/posts/vllm-kubernetes/</link><pubDate>Mon, 18 May 2026 13:00:00 +0200</pubDate><guid>https://blog.lo0.es/posts/vllm-kubernetes/</guid><description>&lt;h2 id="tldr">TL;DR&lt;/h2>
&lt;p>vLLM es el motor de inferencia que convierte una GPU de propósito general en un servidor LLM productivo. Su valor no está en correr un modelo —eso lo hace cualquier &lt;code>transformers.pipeline&lt;/code> con tres líneas de Python— sino en &lt;strong>exprimir la GPU hasta el último gigabyte y el último ciclo&lt;/strong>: PagedAttention para el KV cache, &lt;em>continuous batching&lt;/em> para mezclar peticiones, scheduler propio para repartir tiempo de GPU entre sesiones. Kubernetes es su hábitat natural porque vLLM se comporta como un proceso UNIX moderno —tiene endpoint de health, métricas Prometheus, draining ordenado, recursos declarables— y K8s ya sabe cómo gestionarlos. Pero hay trampas: el HPA estándar no escala vLLM bien, el modelo tarda minutos en cargar, y los rolling updates ingenuos cortan sesiones a medio decodificar. Este artículo desmonta el motor y luego lo encaja, con manifests reales, en un cluster que sí pueda servirlo.&lt;/p>
&lt;blockquote>
&lt;p>Este artículo es la continuación natural de &lt;a href="https://blog.lo0.es/posts/kv-cache-fundamentos/">KV cache: la memoria de trabajo que sostiene la inferencia LLM&lt;/a>. Allí explicamos por qué cada token consume VRAM. Aquí vemos qué se hace con esa VRAM cuando la quieres ofrecer como servicio.&lt;/p>
&lt;/blockquote>
&lt;h2 id="la-analogía-kernel-multiproceso-para-tu-gpu">La analogía: kernel multiproceso para tu GPU&lt;/h2>
&lt;p>Imagina que tienes un único procesador y necesitas servir cien procesos concurrentes sin que ninguno bloquee a los demás. Nadie en su sano juicio escribiría un bucle &lt;code>while-true&lt;/code> que despacha procesos uno a uno: instalaría un sistema operativo. El kernel se encarga del scheduling, de la paginación de memoria, del aislamiento, de las prioridades, de la limpieza al terminar. El &amp;ldquo;proceso&amp;rdquo; se convierte en una abstracción cómoda y el kernel hace el trabajo sucio.&lt;/p>
&lt;p>vLLM es, para tu GPU, lo que el kernel es para tu CPU. Frente a la GPU, una conversación con un LLM es &lt;strong>un proceso que vive durante muchos pasos de decodificación&lt;/strong>, ocupa una porción de VRAM (su KV cache) y demanda tiempo de cómputo cada vez que toca generar un token. Tienes cien de esos procesos a la vez. Necesitas:&lt;/p>
&lt;ul>
&lt;li>&lt;strong>Repartir tiempo de GPU entre ellos&lt;/strong> sin pausarlos enteros (sería desastroso si una conversación larga monopoliza la GPU).&lt;/li>
&lt;li>&lt;strong>Gestionar la memoria con paginación&lt;/strong> porque, igual que en RAM, reservar contiguo es ineficiente.&lt;/li>
&lt;li>&lt;strong>Encolar peticiones nuevas&lt;/strong> cuando la GPU está saturada y servirlas en orden razonable.&lt;/li>
&lt;li>&lt;strong>Recuperar recursos&lt;/strong> cuando una sesión termina.&lt;/li>
&lt;/ul>
&lt;p>PagedAttention es la &lt;strong>memoria virtual&lt;/strong> del KV cache. &lt;em>Continuous batching&lt;/em> es el &lt;strong>scheduler con time-slicing&lt;/strong> que reparte la GPU token a token. El servidor OpenAI-compatible es la &lt;strong>interfaz de syscalls&lt;/strong> uniforme. Llamarlo &amp;ldquo;kernel&amp;rdquo; para la GPU es marketing, pero es marketing que captura bien la idea.&lt;/p>
&lt;h2 id="qué-hace-vllm-por-dentro">Qué hace vLLM por dentro&lt;/h2>
&lt;h3 id="continuous-batching-dejar-de-esperar-al-más-lento">Continuous batching: dejar de esperar al más lento&lt;/h3>
&lt;p>El motor de inferencia naïve hace &lt;em>static batching&lt;/em>: agrupa N peticiones, las procesa hasta que &lt;strong>todas&lt;/strong> terminan, devuelve y empieza otra ronda. El problema es obvio: si una petición pide 8 tokens y otra pide 800, las otras siete esperan a la lenta. La utilización de GPU se cae a plomo.&lt;/p>
&lt;p>&lt;em>Continuous batching&lt;/em> (Yu et al., 2022, popularizado por vLLM) cambia el modelo. En cada paso de decode —que produce un token para cada sesión activa— el motor compone el batch con &lt;strong>los tokens activos de TODAS las sesiones que estén vivas en ese instante&lt;/strong>. Cuando una sesión termina su generación, libera su slot inmediatamente y otra petición de la cola lo ocupa. El batch nunca se queda esperando a la sesión más lenta porque nadie está bloqueado: todos avanzan al ritmo de un token por paso.&lt;/p>
&lt;p>El paper original midió &lt;strong>5–23× más throughput&lt;/strong> que el static batching equivalente. El número exacto depende de la variabilidad de la longitud de las respuestas, pero el orden de magnitud se mantiene en la práctica.&lt;/p>
&lt;div class="diagram" style="max-width: 720px; margin: 1.5rem auto;">
&lt;svg viewBox="0 0 720 240" xmlns="http://www.w3.org/2000/svg" role="img" aria-label="Static vs continuous batching">
&lt;style>.title{font:600 13px sans-serif;fill:#222}.lbl{font:11px sans-serif;fill:#444}.s1{fill:#2a9d8f}.s2{fill:#e76f51}.s3{fill:#264653}.s4{fill:#e9c46a}.empty{fill:#eee;stroke:#999;stroke-dasharray:3 2}&lt;/style>
&lt;text x="180" y="20" text-anchor="middle" class="title">Static batching&lt;/text>
&lt;text x="540" y="20" text-anchor="middle" class="title">Continuous batching&lt;/text>
&lt;text x="20" y="55" class="lbl">sesión 1&lt;/text>
&lt;text x="20" y="80" class="lbl">sesión 2&lt;/text>
&lt;text x="20" y="105" class="lbl">sesión 3&lt;/text>
&lt;text x="20" y="130" class="lbl">sesión 4&lt;/text>
&lt;rect x="70" y="40" width="40" height="20" class="s1"/>
&lt;rect x="70" y="65" width="120" height="20" class="s2"/>
&lt;rect x="70" y="90" width="60" height="20" class="s3"/>
&lt;rect x="70" y="115" width="30" height="20" class="s4"/>
&lt;rect x="110" y="40" width="80" height="20" class="empty"/>
&lt;rect x="130" y="90" width="60" height="20" class="empty"/>
&lt;rect x="100" y="115" width="90" height="20" class="empty"/>
&lt;text x="180" y="160" text-anchor="middle" class="lbl">slots vacíos esperan a la sesión 2&lt;/text>
&lt;rect x="380" y="40" width="40" height="20" class="s1"/>
&lt;rect x="420" y="40" width="80" height="20" class="s3"/>
&lt;rect x="500" y="40" width="40" height="20" class="s4"/>
&lt;rect x="540" y="40" width="40" height="20" class="s1"/>
&lt;rect x="380" y="65" width="120" height="20" class="s2"/>
&lt;rect x="500" y="65" width="40" height="20" class="s3"/>
&lt;rect x="540" y="65" width="80" height="20" class="s4"/>
&lt;rect x="380" y="90" width="60" height="20" class="s3"/>
&lt;rect x="440" y="90" width="50" height="20" class="s2"/>
&lt;rect x="490" y="90" width="40" height="20" class="s4"/>
&lt;rect x="530" y="90" width="100" height="20" class="s1"/>
&lt;rect x="380" y="115" width="30" height="20" class="s4"/>
&lt;rect x="410" y="115" width="80" height="20" class="s2"/>
&lt;rect x="490" y="115" width="60" height="20" class="s3"/>
&lt;rect x="550" y="115" width="80" height="20" class="s1"/>
&lt;text x="540" y="160" text-anchor="middle" class="lbl">slots se reasignan token a token&lt;/text>
&lt;line x1="70" y1="190" x2="630" y2="190" stroke="#666"/>
&lt;text x="350" y="210" text-anchor="middle" class="lbl">tiempo →&lt;/text>
&lt;/svg>
&lt;/div>
&lt;p>La consecuencia para el operador es contraintuitiva: &lt;strong>una sola réplica vLLM rinde como tres réplicas naïve&lt;/strong>. No tiene sentido añadir pods sin justificarlo con métricas reales.&lt;/p>
&lt;h3 id="pagedattention-la-memoria-virtual-del-kv-cache">PagedAttention: la memoria virtual del KV cache&lt;/h3>
&lt;p>Ya lo dejamos apuntado en el artículo del KV cache: el motor naïve reserva un bloque contiguo por sesión, dimensionado al &lt;em>peor caso&lt;/em> (&lt;code>max_context_len&lt;/code>), y desperdicia el 60–80% de la VRAM porque las sesiones reales no llegan ni de lejos a su techo.&lt;/p>
&lt;p>PagedAttention pide prestada la solución que los sistemas operativos llevan medio siglo usando: &lt;strong>dividir la VRAM en bloques pequeños&lt;/strong> (16 tokens en la implementación por defecto) y mantener una &lt;strong>tabla de páginas lógicas → físicas&lt;/strong> por sesión. Una sesión que tiene 273 tokens de contexto ocupa 18 bloques (no necesariamente contiguos), y crece de bloque en bloque conforme genera. El paper midió &lt;strong>&amp;lt;4% de desperdicio&lt;/strong> —un orden de magnitud mejor que la asignación contigua— y eso se traduce en &lt;strong>2–4× más throughput agregado&lt;/strong> en el mismo hardware, porque caben más sesiones a la vez.&lt;/p>
&lt;p>Hay un coste: cada operación de atención debe indirectarse por la tabla de páginas. Pero los kernels CUDA de vLLM están escritos para que esa indirección sea barata, y el resultado neto es masivamente positivo.&lt;/p>
&lt;h3 id="prefill-vs-decode-dos-fases-con-perfiles-opuestos">Prefill vs decode: dos fases con perfiles opuestos&lt;/h3>
&lt;p>Una petición LLM tiene dos fases con perfiles de GPU radicalmente distintos:&lt;/p>
&lt;ul>
&lt;li>&lt;strong>Prefill&lt;/strong>: procesa el prompt entero de golpe. Es &lt;em>compute-bound&lt;/em>: usa los tensor cores intensamente, la GPU está al 90%+, dura entre cientos de ms y unos pocos segundos según el tamaño del prompt.&lt;/li>
&lt;li>&lt;strong>Decode&lt;/strong>: genera token a token. Es &lt;em>memory-bound&lt;/em>: el cómputo es modesto pero hay que leer el KV cache entero por cada token, dura desde unas decenas de ms por token hasta minutos para respuestas largas.&lt;/li>
&lt;/ul>
&lt;p>Un servidor naïve trata cada petición como una unidad y sirve las dos fases en serie. vLLM las desacopla: mezcla peticiones en prefill con peticiones en decode en el mismo paso (técnica llamada &lt;em>chunked prefill&lt;/em> cuando además trocea prefills largos). Resultado: la GPU está siempre ocupada haciendo &lt;em>algo&lt;/em> —los tensor cores con prefills, el ancho de banda HBM con decodes— en lugar de oscilar entre fases.&lt;/p>
&lt;p>Implicación operativa: la métrica &amp;ldquo;% utilización GPU&amp;rdquo; del &lt;code>nvidia-smi&lt;/code> engaña. Una GPU al 100% haciendo prefills puede tener su HBM bandwidth ocioso. Una GPU al 40% haciendo decodes puede tener el HBM saturado. Para LLM serving, &lt;strong>la métrica útil es el ancho de banda HBM efectivo&lt;/strong>, no el porcentaje de cómputo.&lt;/p>
&lt;h3 id="tensor-parallel-cuando-el-modelo-no-cabe-en-una-gpu">Tensor parallel: cuando el modelo no cabe en una GPU&lt;/h3>
&lt;p>Llama 3 70B en BF16 son ~140 GB. No hay una sola GPU en el mercado que lo aguante. La solución es &lt;strong>tensor parallel&lt;/strong>: dividir cada capa del modelo por columnas y ejecutar las particiones en N GPUs en paralelo, sincronizando con un &lt;em>all-reduce&lt;/em> tras cada capa.&lt;/p>
&lt;p>Para N=5 GPUs y un modelo de 70B, cada GPU ve aproximadamente 28 GB de pesos. Suena bien hasta que recuerdas que el all-reduce de cada capa significa &lt;strong>leer y escribir tensores grandes entre GPUs&lt;/strong>. Si las GPUs comparten &lt;strong>NVLink/NVSwitch&lt;/strong> (300–900 GB/s), el all-reduce es barato. Si comparten solo PCIe (~32 GB/s gen4 x16), el all-reduce se come la mitad del tiempo y el throughput se hunde.&lt;/p>
&lt;p>Implicación para K8s, que viene a continuación: el scheduler tiene que &lt;strong>garantizar que las N GPUs estén físicamente cerca&lt;/strong>. Esto se traduce en NodeAffinity al producto correcto (&lt;code>NVIDIA-H100-80GB-HBM3&lt;/code>), pod único con &lt;code>nvidia.com/gpu: N&lt;/code> (no N pods compartiendo) y, si hace falta multi-nodo, InfiniBand con NCCL como transporte.&lt;/p>
&lt;h3 id="el-servidor-openai-compatible">El servidor OpenAI-compatible&lt;/h3>
&lt;p>Por encima de todo lo anterior, vLLM expone un servidor HTTP con endpoints idénticos a los de OpenAI: &lt;code>/v1/chat/completions&lt;/code>, &lt;code>/v1/completions&lt;/code>, &lt;code>/v1/embeddings&lt;/code>, &lt;code>/v1/models&lt;/code>. Soporta streaming Server-Sent Events. Soporta tool calling. Soporta logprobs.&lt;/p>
&lt;p>El valor de esto es enorme y se subestima: &lt;strong>cualquier cliente que use la SDK de OpenAI funciona sin cambios&lt;/strong>. Tu aplicación apunta a &lt;code>https://vllm.tu-cluster.local/v1&lt;/code> en vez de a &lt;code>https://api.openai.com/v1&lt;/code>, y todo lo demás —los SDKs de LangChain, LlamaIndex, OpenAI Python, OpenAI JS— funciona. Es la razón principal por la que vLLM ha ganado tracción sobre alternativas técnicamente comparables: &lt;strong>es la opción aburrida que funciona&lt;/strong>.&lt;/p>
&lt;h2 id="por-qué-kubernetes-es-el-hábitat-natural">Por qué Kubernetes es el hábitat natural&lt;/h2>
&lt;p>vLLM es un proceso bien comportado: arranca, expone métricas, atiende un endpoint de health, recibe SIGTERM con dignidad, declara los recursos que necesita. Kubernetes lleva diez años perfeccionando la gestión de procesos así. Lo único que K8s ha tardado en absorber bien es la GPU, y eso ya está resuelto.&lt;/p>
&lt;h3 id="gpu-como-recurso-primitivo">GPU como recurso primitivo&lt;/h3>
&lt;p>El plumbing es el siguiente:&lt;/p>
&lt;ol>
&lt;li>El nodo tiene driver NVIDIA instalado (o lo instala el GPU Operator).&lt;/li>
&lt;li>Un DaemonSet, &lt;strong>nvidia-device-plugin&lt;/strong>, registra las GPUs físicas como recursos &lt;code>nvidia.com/gpu&lt;/code> ante kubelet.&lt;/li>
&lt;li>El scheduler de Kubernetes ve esos recursos como ve CPU y memoria, los pone en su contabilidad y los asigna a Pods que los piden.&lt;/li>
&lt;li>El &lt;strong>nvidia-container-toolkit&lt;/strong> se asegura de que containerd inyecte los devices correctos en el contenedor al arrancar.&lt;/li>
&lt;/ol>
&lt;p>Para el pod, pedir una GPU es esto:&lt;/p>
&lt;div class="highlight">&lt;pre tabindex="0" class="chroma">&lt;code class="language-yaml" data-lang="yaml">&lt;span class="line">&lt;span class="cl">&lt;span class="nt">resources&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">requests&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">nvidia.com/gpu&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="m">1&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">limits&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">nvidia.com/gpu&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="m">1&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;/code>&lt;/pre>&lt;/div>&lt;p>Sin MIG ni MPS ni time-slicing configurados, &lt;strong>una GPU no se comparte entre pods&lt;/strong>: la pides entera o no la pides. Para vLLM —que quiere toda la GPU para sí— esto es lo deseable.&lt;/p>
&lt;h3 id="el-ciclo-de-vida-del-pod-vllm">El ciclo de vida del Pod vLLM&lt;/h3>
&lt;p>Diferencias con un Pod de webapp típico:&lt;/p>
&lt;ul>
&lt;li>&lt;strong>Startup largo&lt;/strong>. Cargar 16 GB de pesos en VRAM por encima de la red tarda 30 segundos en el mejor caso y 5 minutos en el peor. Una &lt;code>readinessProbe&lt;/code> con &lt;code>initialDelaySeconds: 30&lt;/code> y &lt;code>failureThreshold: 3&lt;/code> mata el pod antes de que arranque. Solución: &lt;code>startupProbe&lt;/code> con threshold alto antes de que la &lt;code>livenessProbe&lt;/code> empiece a evaluar.&lt;/li>
&lt;li>&lt;strong>Warm-up útil&lt;/strong>. El primer prefill compila kernels CUDA específicos del shape de entrada. Las primeras 2–3 peticiones son sensiblemente más lentas. Si la latencia importa desde el segundo 1, conviene disparar un POST de warm-up tras el ready.&lt;/li>
&lt;li>&lt;strong>Draining no instantáneo&lt;/strong>. SIGTERM no debe matar las sesiones en curso. vLLM, configurado con &lt;code>--disable-graceful-shutdown false&lt;/code> (default), termina las peticiones activas antes de cerrar. Esto puede tardar 30–180 segundos. &lt;code>terminationGracePeriodSeconds&lt;/code> debe acomodarlo.&lt;/li>
&lt;li>&lt;strong>Rollouts hostiles&lt;/strong>. Un rolling update naïve (&lt;code>maxUnavailable: 1&lt;/code>) puede dejarte sin réplicas atendiendo si la nueva tarda en cargar. Pon &lt;code>maxSurge: 1, maxUnavailable: 0&lt;/code> para que el pod nuevo esté Ready antes de drenar el viejo.&lt;/li>
&lt;/ul>
&lt;h2 id="anatomía-de-un-despliegue-en-serio">Anatomía de un despliegue en serio&lt;/h2>
&lt;h3 id="antes-que-nada-gpu-operator">Antes que nada: GPU Operator&lt;/h3>
&lt;p>Sin GPU Operator (o instalación manual equivalente), un Pod con &lt;code>nvidia.com/gpu: 1&lt;/code> se queda &lt;strong>Pending&lt;/strong> para siempre. Lo que el operator instala como DaemonSets en cada nodo con GPU:&lt;/p>
&lt;ul>
&lt;li>&lt;code>nvidia-driver-daemonset&lt;/code> — el driver kernel-mode (si no lo tienes instalado al nivel del host).&lt;/li>
&lt;li>&lt;code>nvidia-device-plugin-daemonset&lt;/code> — registra las GPUs como recurso de kubelet.&lt;/li>
&lt;li>&lt;code>nvidia-container-toolkit-daemonset&lt;/code> — la integración con containerd.&lt;/li>
&lt;li>&lt;code>nvidia-dcgm-exporter&lt;/code> — métricas Prometheus de la GPU (utilización, temperatura, ECC errors, memoria).&lt;/li>
&lt;li>&lt;code>gpu-feature-discovery&lt;/code> — labels del nodo: &lt;code>nvidia.com/gpu.product&lt;/code>, &lt;code>nvidia.com/gpu.memory&lt;/code>, etc., imprescindibles para NodeAffinity.&lt;/li>
&lt;/ul>
&lt;p>La instalación recomendada es el chart Helm oficial. La parte sensible es alinear el driver con la versión del kernel del host: si los nodos llevan kernel 6.x, el operator necesita un branch de driver compatible.&lt;/p>
&lt;h3 id="deployment-vllm-completo-y-comentado">Deployment vLLM completo y comentado&lt;/h3>
&lt;p>Lo siguiente despliega Llama 3 8B con KV cache cuantizado FP8, hasta 32K de contexto, en una RTX 4090. Es el manifest de referencia; los comentarios explican las decisiones no obvias.&lt;/p>
&lt;div class="highlight">&lt;pre tabindex="0" class="chroma">&lt;code class="language-yaml" data-lang="yaml">&lt;span class="line">&lt;span class="cl">&lt;span class="nt">apiVersion&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">apps/v1&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w">&lt;/span>&lt;span class="nt">kind&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">Deployment&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w">&lt;/span>&lt;span class="nt">metadata&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">name&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">vllm-llama3-8b&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">namespace&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">inference&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w">&lt;/span>&lt;span class="nt">spec&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">replicas&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="m">1&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">strategy&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">type&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">RollingUpdate&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">rollingUpdate&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">maxSurge&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="m">1&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">maxUnavailable&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="m">0&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="c"># nunca quedarse sin réplicas durante el rollout&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">selector&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">matchLabels&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">app&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">vllm-llama3-8b&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">template&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">metadata&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">labels&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">app&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">vllm-llama3-8b&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">annotations&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">prometheus.io/scrape&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="s2">&amp;#34;true&amp;#34;&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">prometheus.io/port&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="s2">&amp;#34;8000&amp;#34;&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">prometheus.io/path&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="s2">&amp;#34;/metrics&amp;#34;&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">spec&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="c"># Solo nodos con la GPU que esperamos&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">nodeSelector&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">nvidia.com/gpu.product&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">NVIDIA-GeForce-RTX-4090&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">tolerations&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="nt">key&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">nvidia.com/gpu&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">operator&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">Exists&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="c"># Predescargar pesos si no están en el PVC compartido&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">initContainers&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="nt">name&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">model-download&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">image&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">ghcr.io/huggingface/huggingface-cli:latest&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">command&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="p">[&lt;/span>&lt;span class="s2">&amp;#34;sh&amp;#34;&lt;/span>&lt;span class="p">,&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="s2">&amp;#34;-c&amp;#34;&lt;/span>&lt;span class="p">]&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">args&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="p">|&lt;/span>&lt;span class="sd">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="sd"> if [ ! -f /models/llama-3-8b/config.json ]; then
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="sd"> huggingface-cli download meta-llama/Meta-Llama-3-8B-Instruct \
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="sd"> --local-dir /models/llama-3-8b --local-dir-use-symlinks False
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="sd"> fi&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">env&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="nt">name&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">HF_TOKEN&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">valueFrom&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">secretKeyRef&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">name&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">huggingface&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">key&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">token&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">volumeMounts&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="nt">name&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">models&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">mountPath&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">/models&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">containers&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="nt">name&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">vllm&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">image&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">vllm/vllm-openai:v0.6.3&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">args&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- --&lt;span class="l">model=/models/llama-3-8b&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- --&lt;span class="l">served-model-name=llama-3-8b&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- --&lt;span class="l">tensor-parallel-size=1&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- --&lt;span class="l">max-model-len=32768&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- --&lt;span class="l">kv-cache-dtype=fp8&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- --&lt;span class="l">enable-chunked-prefill&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- --&lt;span class="l">enable-prefix-caching&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- --&lt;span class="l">gpu-memory-utilization=0.92&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- --&lt;span class="l">port=8000&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">ports&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="nt">name&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">http&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">containerPort&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="m">8000&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="nt">name&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">metrics&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">containerPort&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="m">8000&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="c"># mismo puerto que http; /metrics&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">resources&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">requests&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">cpu&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="s2">&amp;#34;4&amp;#34;&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">memory&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">8Gi&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">nvidia.com/gpu&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="m">1&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">limits&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">cpu&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="s2">&amp;#34;8&amp;#34;&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">memory&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">16Gi&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">nvidia.com/gpu&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="m">1&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">startupProbe&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">httpGet&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">path&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">/health&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">port&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="m">8000&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">periodSeconds&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="m">10&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">failureThreshold&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="m">60&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="c"># 10 min de gracia para cargar el modelo&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">readinessProbe&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">httpGet&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">path&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">/health&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">port&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="m">8000&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">periodSeconds&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="m">5&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">livenessProbe&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">httpGet&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">path&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">/health&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">port&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="m">8000&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">periodSeconds&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="m">20&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">failureThreshold&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="m">3&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">volumeMounts&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="nt">name&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">models&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">mountPath&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">/models&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">readOnly&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="kc">true&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="c"># ningún proceso debe escribir aquí en runtime&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="nt">name&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">shm&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">mountPath&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">/dev/shm &lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="c"># vLLM usa shared memory para IPC entre workers&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">volumes&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="nt">name&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">models&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">persistentVolumeClaim&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">claimName&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">model-cache&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="nt">name&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">shm&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">emptyDir&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">medium&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">Memory&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">sizeLimit&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">4Gi&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">terminationGracePeriodSeconds&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="m">120&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="c"># acomoda drenaje de sesiones activas&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w">&lt;/span>&lt;span class="nn">---&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w">&lt;/span>&lt;span class="nt">apiVersion&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">v1&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w">&lt;/span>&lt;span class="nt">kind&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">Service&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w">&lt;/span>&lt;span class="nt">metadata&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">name&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">vllm-llama3-8b&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">namespace&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">inference&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w">&lt;/span>&lt;span class="nt">spec&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">selector&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">app&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">vllm-llama3-8b&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">ports&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="nt">name&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">http&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">port&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="m">80&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">targetPort&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="m">8000&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;/code>&lt;/pre>&lt;/div>&lt;p>Cinco cosas que no se ven en primera lectura:&lt;/p>
&lt;ol>
&lt;li>&lt;strong>&lt;code>/dev/shm&lt;/code> en memoria, 4 GB&lt;/strong>. vLLM lanza procesos worker (uno por GPU en tensor parallel, además del driver) que se comunican por shared memory. El default de Docker (64 MB) revienta en cuanto el modelo es mediano. Sin esto, el pod arranca pero falla en cuanto sirve la primera petición compleja.&lt;/li>
&lt;li>&lt;strong>&lt;code>--enable-prefix-caching&lt;/code>&lt;/strong>. Si los prompts de tu carga comparten estructura (system prompt común, few-shot examples), vLLM reutiliza el KV cache de la parte común. Ganancia gratis del 30–60% en TTFT.&lt;/li>
&lt;li>&lt;strong>&lt;code>--gpu-memory-utilization=0.92&lt;/code>&lt;/strong>. vLLM reserva el % indicado de la VRAM para sí. El 8% restante deja margen para activations, kernels CUDA, y el overhead que no se cuenta. Bajarlo da seguridad; subirlo más de 0.95 invita al OOM.&lt;/li>
&lt;li>&lt;strong>PVC &lt;code>ReadOnlyMany&lt;/code>&lt;/strong> ideal. El modelo no cambia en runtime. Varios pods pueden montar el mismo PVC sin contención.&lt;/li>
&lt;li>&lt;strong>Ningún &lt;code>livenessProbe&lt;/code> que tarde menos que el &lt;code>terminationGracePeriodSeconds&lt;/code>&lt;/strong>. Si un drain tarda 90s y la liveness mata a los 60s, los rollouts pierden sesiones.&lt;/li>
&lt;/ol>
&lt;h3 id="tensor-parallel-multi-pod-leaderworkerset">Tensor parallel multi-pod: LeaderWorkerSet&lt;/h3>
&lt;p>Cuando el modelo necesita más GPUs de las que tiene un solo nodo, el patrón es &lt;strong>un grupo de pods coordinados, uno por GPU, que se comportan como una única réplica&lt;/strong>. Esto se modeló durante años con StatefulSet más init scripts; desde Kubernetes 1.32, el primitivo idiomático es &lt;strong>LeaderWorkerSet&lt;/strong> (LWS):&lt;/p>
&lt;div class="highlight">&lt;pre tabindex="0" class="chroma">&lt;code class="language-yaml" data-lang="yaml">&lt;span class="line">&lt;span class="cl">&lt;span class="nt">apiVersion&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">leaderworkerset.x-k8s.io/v1&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w">&lt;/span>&lt;span class="nt">kind&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">LeaderWorkerSet&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w">&lt;/span>&lt;span class="nt">metadata&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">name&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">vllm-llama3-70b&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">namespace&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">inference&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w">&lt;/span>&lt;span class="nt">spec&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">replicas&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="m">1&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">leaderWorkerTemplate&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">size&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="m">5&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="c"># 1 leader + 4 workers = 5 pods, 5 GPUs&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">restartPolicy&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">RecreateGroupOnPodRestart&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">leaderTemplate&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">spec&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">nodeSelector&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">nvidia.com/gpu.product&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">NVIDIA-H100-80GB-HBM3&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">containers&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="nt">name&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">vllm-leader&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">image&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">vllm/vllm-openai:v0.6.3&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">args&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- --&lt;span class="l">model=/models/llama-3-70b&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- --&lt;span class="l">tensor-parallel-size=5&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- --&lt;span class="l">distributed-executor-backend=ray&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="c"># ...&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">workerTemplate&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">spec&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">nodeSelector&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">nvidia.com/gpu.product&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">NVIDIA-H100-80GB-HBM3&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">containers&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="nt">name&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">vllm-worker&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">image&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">vllm/vllm-openai:v0.6.3&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="c"># los workers se unen al cluster Ray del leader&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;/code>&lt;/pre>&lt;/div>&lt;p>LWS garantiza el orden de arranque (workers primero, leader después) y el ciclo de vida atómico (si un worker cae, se reinicia el grupo entero, no un solo pod). Sin esto, la coordinación es manualmente frágil.&lt;/p>
&lt;p>Una alternativa más sencilla, si todas las GPUs del tensor parallel caben en &lt;strong>un solo nodo&lt;/strong> (caso de los HGX H100 con 8 GPUs y NVSwitch interno): un único Pod con &lt;code>nvidia.com/gpu: 5&lt;/code>, &lt;code>--tensor-parallel-size=5&lt;/code>, y vLLM se encarga de todo internamente. Sin Ray, sin LWS, mucho más simple. Es el camino recomendado cuando se puede.&lt;/p>
&lt;h3 id="autoscaling-hpa-estándar-no-sirve">Autoscaling: HPA estándar no sirve&lt;/h3>
&lt;p>El HPA por CPU% es inútil para vLLM. La GPU hace el trabajo; la CPU del pod está al 5–10% incluso al máximo de carga. Tampoco sirve el porcentaje de utilización de la GPU del &lt;code>dcgm-exporter&lt;/code>: un pod al 100% de GPU% con &lt;code>gpu_cache_usage_perc=15%&lt;/code> está atendiendo una sesión larga sin saturar, mientras que un pod al 60% de GPU% con &lt;code>gpu_cache_usage_perc=95%&lt;/code> está al borde de la expulsión de sesiones.&lt;/p>
&lt;p>Las métricas correctas las exporta el propio vLLM en &lt;code>/metrics&lt;/code> (formato Prometheus):&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Métrica&lt;/th>
&lt;th>Qué dice&lt;/th>
&lt;th>Cuándo escalar&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>&lt;code>vllm:num_requests_waiting&lt;/code>&lt;/td>
&lt;td>Peticiones encoladas sin entrar al batch.&lt;/td>
&lt;td>Si pasa de 5–10 sostenidos.&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;code>vllm:num_requests_running&lt;/code>&lt;/td>
&lt;td>Peticiones activas en el batch.&lt;/td>
&lt;td>Para capacity planning, no para escalar.&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;code>vllm:gpu_cache_usage_perc&lt;/code>&lt;/td>
&lt;td>% del KV cache ocupado.&lt;/td>
&lt;td>Si &amp;gt;80% sostenido, hay riesgo de preemption.&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;code>vllm:time_to_first_token_seconds&lt;/code>&lt;/td>
&lt;td>Latencia del prefill (histograma).&lt;/td>
&lt;td>Si p95 supera tu SLA.&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;code>vllm:e2e_request_latency_seconds&lt;/code>&lt;/td>
&lt;td>Latencia total por petición.&lt;/td>
&lt;td>Métrica de salida.&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>Para que el HPA las consuma, dos caminos: &lt;strong>Prometheus Adapter&lt;/strong> (expone métricas custom al API de K8s) o &lt;strong>KEDA&lt;/strong> (escala por queries Prometheus directamente, mucho más cómodo). Con KEDA:&lt;/p>
&lt;div class="highlight">&lt;pre tabindex="0" class="chroma">&lt;code class="language-yaml" data-lang="yaml">&lt;span class="line">&lt;span class="cl">&lt;span class="nt">apiVersion&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">keda.sh/v1alpha1&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w">&lt;/span>&lt;span class="nt">kind&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">ScaledObject&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w">&lt;/span>&lt;span class="nt">metadata&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">name&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">vllm-scaler&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">namespace&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">inference&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w">&lt;/span>&lt;span class="nt">spec&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">scaleTargetRef&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">name&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">vllm-llama3-8b&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">minReplicaCount&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="m">1&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">maxReplicaCount&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="m">8&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">pollingInterval&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="m">10&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">cooldownPeriod&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="m">120&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="c"># 2 min antes de scale-down (sesiones largas)&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">triggers&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>- &lt;span class="nt">type&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">prometheus&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">metadata&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">serverAddress&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="l">http://prometheus.monitoring:9090&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">threshold&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="s1">&amp;#39;5&amp;#39;&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="w"> &lt;/span>&lt;span class="nt">query&lt;/span>&lt;span class="p">:&lt;/span>&lt;span class="w"> &lt;/span>&lt;span class="p">|&lt;/span>&lt;span class="sd">
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="sd"> sum(vllm:num_requests_waiting{app=&amp;#34;vllm-llama3-8b&amp;#34;})&lt;/span>&lt;span class="w">
&lt;/span>&lt;/span>&lt;/span>&lt;/code>&lt;/pre>&lt;/div>&lt;p>El &lt;code>cooldownPeriod&lt;/code> largo es importante: si bajas réplicas mientras hay sesiones decodificando, las matas. Mejor 2 minutos de holgura.&lt;/p>
&lt;h3 id="observabilidad-las-cuatro-métricas-que-importan">Observabilidad: las cuatro métricas que importan&lt;/h3>
&lt;p>De todo lo que &lt;code>/metrics&lt;/code> exporta, un dashboard mínimo necesita estas cuatro:&lt;/p>
&lt;ol>
&lt;li>&lt;strong>TTFT p50/p95&lt;/strong> (time to first token) — lo que percibe el usuario al pulsar enviar.&lt;/li>
&lt;li>&lt;strong>TPOT p50/p95&lt;/strong> (time per output token) — la &amp;ldquo;velocidad&amp;rdquo; del streaming.&lt;/li>
&lt;li>&lt;strong>Throughput agregado&lt;/strong> (tokens generados/segundo del cluster) — para capacity planning.&lt;/li>
&lt;li>&lt;strong>Queue depth&lt;/strong> (&lt;code>vllm:num_requests_waiting&lt;/code>) — el indicador adelantado: si crece, todo se va a degradar.&lt;/li>
&lt;/ol>
&lt;p>A esto se le suma utilización HBM y memoria libre por GPU (de &lt;code>dcgm-exporter&lt;/code>) para detectar saturación de bandwidth y problemas de fragmentación. Un dashboard Grafana decente con esas 6 gráficas adelanta el 90% de los incidentes.&lt;/p>
&lt;h2 id="dos-escenarios-concretos">Dos escenarios concretos&lt;/h2>
&lt;p>Reutilizamos los mismos hardwares del artículo anterior para tener continuidad. Mismas matemáticas de cache, ahora con el motor montado.&lt;/p>
&lt;h3 id="escenario-a--1rtx-4090-workstation-o-nodo-k8s-pequeño">Escenario A — 1×RTX 4090 (workstation o nodo K8s pequeño)&lt;/h3>
&lt;ul>
&lt;li>&lt;strong>Topología&lt;/strong>: 1 Pod, &lt;code>--tensor-parallel-size=1&lt;/code>, 1 GPU, 1 nodo.&lt;/li>
&lt;li>&lt;strong>Modelo&lt;/strong>: hasta 8B BF16 (Llama 3 8B, Qwen3 8B, Mistral 7B) o hasta 14B en FP8/AWQ.&lt;/li>
&lt;li>&lt;strong>PVC&lt;/strong>: SSD local del nodo. La 4090 lee 1 TB/s de HBM; un SSD NVMe a 5 GB/s tarda 5 segundos en alimentar 25 GB de pesos a VRAM, despreciable frente a la inicialización.&lt;/li>
&lt;li>&lt;strong>HPA&lt;/strong>: irrelevante dentro de la 4090 (siempre 1 réplica de vLLM por GPU), pero útil entre nodos: 3 réplicas en 3 nodos con 4090 cada uno, el Service de K8s reparte round-robin.&lt;/li>
&lt;li>&lt;strong>Concurrencia útil&lt;/strong>: 4–8 sesiones simultáneas con 8K de contexto, 1–2 con 32K.&lt;/li>
&lt;li>&lt;strong>Caso de uso natural&lt;/strong>: PoC, equipos pequeños, ambientes departamentales, edge.&lt;/li>
&lt;/ul>
&lt;p>El manifest de arriba está dimensionado para este escenario. Cambiando solo el modelo y los args, el mismo Deployment sirve Qwen, Mistral o el que toque.&lt;/p>
&lt;h3 id="escenario-b--5h100-sxm-cluster-con-nvlinknvswitch">Escenario B — 5×H100 SXM (cluster con NVLink/NVSwitch)&lt;/h3>
&lt;ul>
&lt;li>&lt;strong>Topología&lt;/strong>: 1 Pod con &lt;code>nvidia.com/gpu: 5&lt;/code> en un nodo HGX, &lt;code>--tensor-parallel-size=5&lt;/code>. Si la plataforma no permite agrupar 5 GPUs en un solo Pod, &lt;strong>LeaderWorkerSet&lt;/strong> con 5 pods coordinados por Ray.&lt;/li>
&lt;li>&lt;strong>Modelo&lt;/strong>: hasta 70B BF16 (Llama 3 70B) o hasta 200B+ en FP8 con cuantización del cache.&lt;/li>
&lt;li>&lt;strong>PVC&lt;/strong>: NVMe directamente atado al nodo, o storage en red &lt;strong>rápido&lt;/strong> (Ceph con red 25/100 GbE, Lustre, GPFS). Cargar 140 GB de pesos por una red lenta tarda 5 minutos por arranque.&lt;/li>
&lt;li>&lt;strong>HPA&lt;/strong>: irrelevante dentro del cluster de 5 GPUs (las 5 son una unidad indivisible), pero útil añadiendo más nodos HGX completos cuando la carga pasa de cierto umbral. Esto se combina con Cluster Autoscaler si la infraestructura subyacente lo permite.&lt;/li>
&lt;li>&lt;strong>Concurrencia útil&lt;/strong>: 32–128 sesiones simultáneas con contextos medianos, 4–16 con contextos enormes.&lt;/li>
&lt;li>&lt;strong>Caso de uso natural&lt;/strong>: servicio interno corporativo, exposición pública con SLA, multi-tenant.&lt;/li>
&lt;/ul>
&lt;h3 id="a-y-b-lado-a-lado">A y B, lado a lado&lt;/h3>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Aspecto&lt;/th>
&lt;th>A (1×4090)&lt;/th>
&lt;th>B (5×H100 SXM)&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>Topología Pod&lt;/td>
&lt;td>1 pod, 1 GPU&lt;/td>
&lt;td>1 pod con 5 GPUs (o LWS de 5)&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Modelo máximo BF16&lt;/td>
&lt;td>8 B&lt;/td>
&lt;td>70 B&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>TTFT @ 8K contexto, idle&lt;/td>
&lt;td>~250 ms&lt;/td>
&lt;td>~80 ms&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>TPOT, idle&lt;/td>
&lt;td>~30 ms/tok&lt;/td>
&lt;td>~15 ms/tok&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Throughput @ concurrencia 16&lt;/td>
&lt;td>~50 tok/s/sesión&lt;/td>
&lt;td>~200 tok/s/sesión&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Drain de sesiones&lt;/td>
&lt;td>30–60 s&lt;/td>
&lt;td>60–180 s&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Autoscaling útil&lt;/td>
&lt;td>Réplicas en nodos pares&lt;/td>
&lt;td>Nodos completos vía Cluster Autoscaler&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Multi-tenancy razonable&lt;/td>
&lt;td>Limitada: 4–8 sesiones&lt;/td>
&lt;td>Holgada: 32–128 sesiones&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Coste indicativo (hardware)&lt;/td>
&lt;td>~2 K €&lt;/td>
&lt;td>~250 K € (≈ 125×)&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>La asimetría sigue siendo la del artículo anterior: 125× más caro, sólo ~4× más throughput por sesión y ~10× más concurrencia. Lo que el cluster compra no es proporcional; compra &lt;strong>acceso a modelos un orden de magnitud más grandes&lt;/strong> y &lt;strong>latencias suficientemente bajas para uso interactivo a escala&lt;/strong>. Si tu carga es batch o agentes asincrónicos donde la latencia no es crítica, varias 4090s rinden sorprendentemente cerca.&lt;/p>
&lt;h2 id="vllm-frente-a-tensorrt-llm-y-sglang">vLLM frente a TensorRT-LLM y SGLang&lt;/h2>
&lt;p>Honestamente, los tres son buenos motores. La elección depende de criterios prácticos, no técnicos. Mapa de decisión, no benchmark:&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Criterio&lt;/th>
&lt;th>vLLM&lt;/th>
&lt;th>TensorRT-LLM&lt;/th>
&lt;th>SGLang&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>Hardware soportado&lt;/td>
&lt;td>NVIDIA, AMD ROCm, Intel Gaudi&lt;/td>
&lt;td>NVIDIA exclusivamente&lt;/td>
&lt;td>NVIDIA, AMD ROCm&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Latencia pura (TTFT)&lt;/td>
&lt;td>Buena&lt;/td>
&lt;td>&lt;strong>Mejor&lt;/strong>: kernels compilados al hardware exacto&lt;/td>
&lt;td>Buena&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Throughput agregado&lt;/td>
&lt;td>&lt;strong>Excelente&lt;/strong>&lt;/td>
&lt;td>Excelente&lt;/td>
&lt;td>Excelente (RadixAttention)&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Despliegue&lt;/td>
&lt;td>&lt;strong>Trivial&lt;/strong>: imagen Docker + args&lt;/td>
&lt;td>Complejo: build engine por modelo + por GPU&lt;/td>
&lt;td>Moderado&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>API OpenAI-compatible&lt;/td>
&lt;td>&lt;strong>Nativa, completa&lt;/strong>&lt;/td>
&lt;td>Sí, a través de Triton Inference Server&lt;/td>
&lt;td>Sí&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Soporte de modelos nuevos&lt;/td>
&lt;td>&lt;strong>Días tras release&lt;/strong>&lt;/td>
&lt;td>Semanas (recompilar engine)&lt;/td>
&lt;td>Días&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Quantization&lt;/td>
&lt;td>AWQ, GPTQ, FP8 cache&lt;/td>
&lt;td>INT4/INT8/FP8 muy maduros&lt;/td>
&lt;td>AWQ, FP8&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Multi-modal&lt;/td>
&lt;td>Sí (Llava, Pixtral, Qwen-VL)&lt;/td>
&lt;td>Sí&lt;/td>
&lt;td>&lt;strong>Excelente&lt;/strong>, prioritario&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Function calling / tool use&lt;/td>
&lt;td>Bueno&lt;/td>
&lt;td>Limitado&lt;/td>
&lt;td>&lt;strong>Primera clase&lt;/strong>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Comunidad / cadencia release&lt;/td>
&lt;td>&lt;strong>Muy activa, semanal&lt;/strong>&lt;/td>
&lt;td>Activa, NVIDIA-driven&lt;/td>
&lt;td>Muy activa, académica&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Licencia&lt;/td>
&lt;td>Apache 2.0&lt;/td>
&lt;td>Apache 2.0&lt;/td>
&lt;td>Apache 2.0&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>&lt;strong>Cuándo elegir cada uno&lt;/strong>:&lt;/p>
&lt;ul>
&lt;li>
&lt;p>&lt;strong>vLLM&lt;/strong>: el &amp;ldquo;boring choice&amp;rdquo; que funciona. Camino con menos fricción para llegar a producción. Si tu equipo no tiene un especialista dedicado al inference serving, esto. Soporta hardware variado, modelos al día, API estable, comunidad enorme.&lt;/p>
&lt;/li>
&lt;li>
&lt;p>&lt;strong>TensorRT-LLM&lt;/strong>: cuando la latencia por petición es la métrica única que importa y tu modelo es estable (entrenado in-house, no cambias cada quincena). El precio del rendimiento es que cada modelo + cada GPU + cada versión de TRT requiere rebuild del engine, y eso bloquea iteración rápida.&lt;/p>
&lt;/li>
&lt;li>
&lt;p>&lt;strong>SGLang&lt;/strong>: para cargas dominadas por agentes (tool calling intensivo) o multi-modal complejo. Su RadixAttention —caching estructural de prompts con prefijos compartidos— brilla en patrones tipo ReAct donde el mismo system prompt se repite miles de veces.&lt;/p>
&lt;/li>
&lt;/ul>
&lt;p>Para la mayoría de equipos que están empezando con LLM serving on-prem, &lt;strong>vLLM es la respuesta correcta hasta que tengas datos en producción que te empujen a otra cosa&lt;/strong>.&lt;/p>
&lt;h2 id="trampas-operativas-frecuentes">Trampas operativas frecuentes&lt;/h2>
&lt;p>Una lista de gotchas que se ven una y otra vez:&lt;/p>
&lt;h3 id="el-modelo-se-descarga-en-cada-rolling-update">El modelo se descarga en cada rolling update&lt;/h3>
&lt;p>&lt;strong>Síntoma&lt;/strong>: cada deploy tarda 5+ minutos en estar disponible.
&lt;strong>Causa&lt;/strong>: no hay PVC compartido. Cada pod nuevo descarga el modelo desde Hugging Face de cero.
&lt;strong>Remedio&lt;/strong>: PVC ReadOnlyMany sobre un storage rápido, o un mirror local del registry (un Pod con &lt;code>huggingface-cli&lt;/code> que sirve un directorio por HTTP). En CI/CD, hidratar el PVC antes del rollout es 1 línea de bash.&lt;/p>
&lt;h3 id="readiness-con-timeout-corto-que-mata-pods-cargando">readiness con timeout corto que mata pods cargando&lt;/h3>
&lt;p>&lt;strong>Síntoma&lt;/strong>: pods nuevos entran en &lt;code>CrashLoopBackOff&lt;/code> durante la primera carga del modelo.
&lt;strong>Causa&lt;/strong>: &lt;code>readinessProbe&lt;/code> con timeout demasiado bajo dispara antes de que vLLM termine de cargar; &lt;code>livenessProbe&lt;/code> lo remata.
&lt;strong>Remedio&lt;/strong>: &lt;code>startupProbe&lt;/code> con &lt;code>failureThreshold: 60&lt;/code> o más (10 minutos de gracia) antes de que la liveness empiece a evaluar.&lt;/p>
&lt;h3 id="kv-cache-sin-cuantizar-y-luego-oom">KV cache sin cuantizar y luego OOM&lt;/h3>
&lt;p>&lt;strong>Síntoma&lt;/strong>: el pod arranca bien, atiende cinco minutos, &lt;strong>OOMKilled&lt;/strong> cuando llega la sesión número cinco con contexto largo.
&lt;strong>Causa&lt;/strong>: KV cache en BF16 (default) consume el doble que en FP8.
&lt;strong>Remedio&lt;/strong>: &lt;code>--kv-cache-dtype=fp8&lt;/code>. Pérdida de calidad despreciable en la inmensa mayoría de casos, capacidad duplicada.&lt;/p>
&lt;h3 id="confundir-réplicas-con-concurrencia">Confundir réplicas con concurrencia&lt;/h3>
&lt;p>&lt;strong>Síntoma&lt;/strong>: el HPA escala a 8 réplicas con poca carga real y la factura cloud sube. La latencia no mejora.
&lt;strong>Causa&lt;/strong>: alguien configuró &lt;code>targetAverageUtilization: 50%&lt;/code> sobre CPU, pensando que es &amp;ldquo;carga&amp;rdquo;. Realidad: una sola réplica vLLM atiende decenas de sesiones simultáneas.
&lt;strong>Remedio&lt;/strong>: HPA sobre &lt;code>vllm:num_requests_waiting&lt;/code>. Si la cola está vacía, una réplica basta aunque la GPU esté al 90%.&lt;/p>
&lt;h3 id="tensor-parallel-en-gpus-sin-nvlink">Tensor parallel en GPUs sin NVLink&lt;/h3>
&lt;p>&lt;strong>Síntoma&lt;/strong>: throughput 3× peor del esperado, GPUs al 30%, mucho tráfico PCIe.
&lt;strong>Causa&lt;/strong>: &lt;code>tensor_parallel=4&lt;/code> en 4 GPUs conectadas solo por PCIe; el all-reduce satura el bus en cada capa.
&lt;strong>Remedio&lt;/strong>: o las GPUs comparten NVLink/NVSwitch (modelos SXM/HGX), o &lt;strong>pipeline parallel&lt;/strong> (peor latencia pero menos all-reduce), o reduces TP y aceptas que no cabe el modelo entero.&lt;/p>
&lt;h3 id="sesiones-cortadas-en-rolling-update">Sesiones cortadas en rolling update&lt;/h3>
&lt;p>&lt;strong>Síntoma&lt;/strong>: usuarios ven respuestas truncadas durante el deploy.
&lt;strong>Causa&lt;/strong>: &lt;code>terminationGracePeriodSeconds: 30&lt;/code> (default) no llega para drenar generaciones largas.
&lt;strong>Remedio&lt;/strong>: &lt;code>terminationGracePeriodSeconds: 120–180&lt;/code>. Combinado con &lt;code>maxUnavailable: 0&lt;/code>, los rollouts son invisibles para los usuarios activos.&lt;/p>
&lt;h2 id="lo-que-no-hemos-cubierto-próximos-artículos">Lo que no hemos cubierto (próximos artículos)&lt;/h2>
&lt;ul>
&lt;li>&lt;strong>vLLM con LoRA adapters en caliente&lt;/strong>: servir un base model + N adapters específicos por tenant sin recargar pesos.&lt;/li>
&lt;li>&lt;strong>Disaggregated serving&lt;/strong>: separar prefill y decode en pods especializados, cada uno optimizado para su perfil de GPU.&lt;/li>
&lt;li>&lt;strong>Quantization deep-dive&lt;/strong>: AWQ vs GPTQ vs FP8 dinámico vs FP4, trade-offs reales, cuándo cada uno.&lt;/li>
&lt;li>&lt;strong>Gateway API + AI Inference Extensions&lt;/strong>: la propuesta sigwg para que los LLMs sean ciudadanos de primera en K8s (routing por modelo, sticky session por conversación, fairness multi-tenant).&lt;/li>
&lt;li>&lt;strong>Multi-modal serving&lt;/strong>: el mismo runtime, otro tipo de peticiones —imágenes, audio, embeddings—.&lt;/li>
&lt;/ul>
&lt;h2 id="referencias">Referencias&lt;/h2>
&lt;ul>
&lt;li>Kwon et al., &lt;a href="https://arxiv.org/abs/2309.06180">&lt;em>Efficient Memory Management for Large Language Model Serving with PagedAttention&lt;/em>&lt;/a> (SOSP 2023) — paper original de vLLM.&lt;/li>
&lt;li>Yu et al., &lt;a href="https://www.usenix.org/conference/osdi22/presentation/yu">&lt;em>Orca: A Distributed Serving System for Transformer-Based Generative Models&lt;/em>&lt;/a> (OSDI 2022) — paper que popularizó &lt;em>continuous batching&lt;/em>.&lt;/li>
&lt;li>&lt;a href="https://docs.vllm.ai/">Documentación oficial de vLLM&lt;/a> — operacional y bien mantenida.&lt;/li>
&lt;li>&lt;a href="https://docs.nvidia.com/datacenter/cloud-native/gpu-operator/">NVIDIA GPU Operator&lt;/a> — instalación y troubleshooting de la capa GPU en Kubernetes.&lt;/li>
&lt;li>&lt;a href="https://kubernetes.io/blog/2024/04/16/introducing-leaderworkerset/">LeaderWorkerSet&lt;/a> — primitivo para workloads coordinados como tensor parallel multi-pod.&lt;/li>
&lt;li>&lt;a href="https://keda.sh/">KEDA&lt;/a> — autoscaling event-driven, idóneo para escalar por métricas de cola.&lt;/li>
&lt;li>&lt;a href="https://github.com/NVIDIA/TensorRT-LLM">TensorRT-LLM&lt;/a> y &lt;a href="https://github.com/sgl-project/sglang">SGLang&lt;/a> — los dos comparables más serios.&lt;/li>
&lt;li>&lt;a href="https://lmsys.org/">LMSYS Chatbot Arena&lt;/a> — benchmarks periódicos comparando los tres motores.&lt;/li>
&lt;li>Artículo previo en este blog: &lt;a href="https://blog.lo0.es/posts/kv-cache-fundamentos/">KV cache: la memoria de trabajo que sostiene la inferencia LLM&lt;/a>.&lt;/li>
&lt;/ul></description></item><item><title>KV cache: la memoria de trabajo que sostiene la inferencia LLM</title><link>https://blog.lo0.es/posts/kv-cache-fundamentos/</link><pubDate>Mon, 18 May 2026 00:00:00 +0000</pubDate><guid>https://blog.lo0.es/posts/kv-cache-fundamentos/</guid><description>&lt;h2 id="tldr">TL;DR&lt;/h2>
&lt;p>El KV cache es la &lt;strong>memoria de trabajo&lt;/strong> que un modelo de lenguaje mantiene durante una conversación. Sin él, cada token nuevo obligaría a recalcular toda la conversación desde el principio, con un coste &lt;strong>cuadrático&lt;/strong> en la longitud del texto. Con él, el coste es lineal pero a cambio el cache &lt;strong>vive en VRAM y crece con cada token&lt;/strong>. En la práctica, no es el modelo lo que limita cuánto contexto puedes servir: es el KV cache. Para una RTX 4090 con Llama 3 8B, cabe el modelo en 16 GB y queda apenas espacio para ~64 K tokens de cache totales (sumando todas las sesiones simultáneas). Entender este número es la diferencia entre &lt;strong>anunciar&lt;/strong> &amp;ldquo;contexto de 128 K&amp;rdquo; y &lt;strong>servirlo&lt;/strong> de verdad bajo carga.&lt;/p>
&lt;h2 id="la-analogía-el-orador-con-amnesia">La analogía: el orador con amnesia&lt;/h2>
&lt;p>Imagina que asistes a una conferencia técnica de dos horas. El ponente, cada vez que va a decir una frase nueva, &lt;strong>rebobina mentalmente toda la charla desde el inicio&lt;/strong>, recompone el hilo, y solo entonces continúa. Su próxima frase requiere rememorar la anterior; la siguiente, las dos anteriores; al cabo de una hora, cada palabra nueva le cuesta una hora de recapitulación. Una conferencia así sería materialmente imposible.&lt;/p>
&lt;p>Ahora imagina al mismo ponente con un cuaderno donde apunta, mientras habla, las dos o tres ideas clave de cada frase: sujeto, objeto, vínculo con lo anterior. Antes de cada frase nueva, ojea el cuaderno y sigue. Su próxima palabra sólo cuesta una ojeada al cuaderno, no rebobinar la charla entera.&lt;/p>
&lt;p>Ese cuaderno, en un transformer, se llama &lt;strong>KV cache&lt;/strong>. Sin él, los modelos de lenguaje conversacionales serían inviables. Con él, son productos comerciales. Pero el cuaderno &lt;strong>pesa&lt;/strong>: y entender cuánto, dónde y por qué, es lo que separa una infraestructura de inferencia que funciona de una que se cae a la tercera sesión concurrente.&lt;/p>
&lt;h2 id="el-mecanismo-en-sí-en-cristiano">El mecanismo en sí (en cristiano)&lt;/h2>
&lt;p>Un transformer genera texto &lt;strong>un token cada vez&lt;/strong>. Para decidir el siguiente token, el modelo aplica un mecanismo llamado &lt;strong>atención&lt;/strong> sobre todos los tokens previos: pregunta &amp;ldquo;¿qué partes del contexto anterior son relevantes para predecir lo que viene ahora?&amp;rdquo;.&lt;/p>
&lt;p>Internamente, cada token de entrada se proyecta a tres vectores:&lt;/p>
&lt;ul>
&lt;li>&lt;strong>Q&lt;/strong> (Query): &amp;ldquo;qué estoy buscando&amp;rdquo;&lt;/li>
&lt;li>&lt;strong>K&lt;/strong> (Key): &amp;ldquo;qué oferta este token&amp;rdquo;&lt;/li>
&lt;li>&lt;strong>V&lt;/strong> (Value): &amp;ldquo;qué información lleva este token&amp;rdquo;&lt;/li>
&lt;/ul>
&lt;p>La atención del token actual contra el contexto se calcula multiplicando su &lt;strong>Q&lt;/strong> contra las &lt;strong>K&lt;/strong> de todos los tokens previos, normalizando con softmax, y ponderando las &lt;strong>V&lt;/strong> correspondientes. Resultado: una representación contextualizada del token actual.&lt;/p>
&lt;div class="diagram" style="max-width: 720px; margin: 1.5rem auto;">
&lt;svg viewBox="0 0 720 260" xmlns="http://www.w3.org/2000/svg" role="img" aria-label="Diagrama del cálculo de atención con Q, K, V">
&lt;style>
.box { fill: #f4f4f4; stroke: #333; stroke-width: 1.5; }
.box-q { fill: #ffe9d6; }
.box-k { fill: #d6eaff; }
.box-v { fill: #d9f5d6; }
.lbl { font: 600 13px sans-serif; fill: #222; }
.lbl-sm { font: 11px sans-serif; fill: #444; }
.arr { stroke: #444; stroke-width: 1.4; fill: none; marker-end: url(#ah); }
&lt;/style>
&lt;defs>
&lt;marker id="ah" viewBox="0 0 10 10" refX="9" refY="5" markerWidth="6" markerHeight="6" orient="auto">
&lt;path d="M0,0 L10,5 L0,10 z" fill="#444"/>
&lt;/marker>
&lt;/defs>
&lt;text x="360" y="22" text-anchor="middle" class="lbl">Cálculo de atención para el token N&lt;/text>
&lt;rect x="40" y="60" width="120" height="40" rx="6" class="box box-q"/>
&lt;text x="100" y="85" text-anchor="middle" class="lbl">Q (token N)&lt;/text>
&lt;text x="100" y="115" text-anchor="middle" class="lbl-sm">"qué busco"&lt;/text>
&lt;rect x="280" y="60" width="160" height="40" rx="6" class="box box-k"/>
&lt;text x="360" y="85" text-anchor="middle" class="lbl">K (tokens 1..N)&lt;/text>
&lt;text x="360" y="115" text-anchor="middle" class="lbl-sm">del cache&lt;/text>
&lt;rect x="560" y="60" width="120" height="40" rx="6" class="box box-v"/>
&lt;text x="620" y="85" text-anchor="middle" class="lbl">V (tokens 1..N)&lt;/text>
&lt;text x="620" y="115" text-anchor="middle" class="lbl-sm">del cache&lt;/text>
&lt;path class="arr" d="M160,80 L280,80"/>
&lt;path class="arr" d="M440,80 L560,80"/>
&lt;text x="220" y="74" text-anchor="middle" class="lbl-sm">Q·Kᵀ → softmax&lt;/text>
&lt;text x="500" y="74" text-anchor="middle" class="lbl-sm">× V&lt;/text>
&lt;rect x="240" y="170" width="240" height="44" rx="6" class="box"/>
&lt;text x="360" y="197" text-anchor="middle" class="lbl">representación del token N&lt;/text>
&lt;path class="arr" d="M620,100 C620,150 480,150 480,170"/>
&lt;path class="arr" d="M100,100 C100,150 240,150 240,170"/>
&lt;/svg>
&lt;/div>
&lt;p>Aquí está la clave: para predecir el token N, sólo necesito &lt;strong>Q nuevo&lt;/strong> (el del token N) y &lt;strong>K, V de todos los tokens anteriores&lt;/strong>. Las K y V de los tokens 1..N-1 no han cambiado desde la iteración anterior. Recalcularlas sería tirar trabajo.&lt;/p>
&lt;p>&lt;strong>El KV cache es exactamente eso: la memoria que guarda K y V de cada token ya procesado, en cada capa del modelo, para no recalcularlos.&lt;/strong>&lt;/p>
&lt;h2 id="por-qué-existe-el-coste-cuadrático-sin-él">Por qué existe: el coste cuadrático sin él&lt;/h2>
&lt;p>Generar un texto de N tokens implica N pasos. En el paso &lt;code>i&lt;/code>, se calcula la atención sobre &lt;code>i&lt;/code> tokens anteriores. Sin cache, en cada paso recomputas las K, V de los &lt;code>i-1&lt;/code> tokens anteriores &lt;strong>más&lt;/strong> las del nuevo. La cuenta total de cómputos de atención crece como:&lt;/p>
&lt;pre tabindex="0">&lt;code>Σ i (i=1..N) = N·(N+1) / 2 ≈ N² / 2
&lt;/code>&lt;/pre>&lt;p>Con KV cache, sólo procesas el token nuevo en cada paso: coste &lt;strong>lineal en N&lt;/strong>.&lt;/p>
&lt;div class="diagram" style="max-width: 720px; margin: 1.5rem auto;">
&lt;svg viewBox="0 0 720 320" xmlns="http://www.w3.org/2000/svg" role="img" aria-label="Comparativa de coste lineal vs cuadrático">
&lt;style>
.ax { stroke: #333; stroke-width: 1.5; }
.grid { stroke: #ddd; stroke-width: 1; stroke-dasharray: 3,3; }
.lin { stroke: #2a9d8f; stroke-width: 2.5; fill: none; }
.quad { stroke: #e76f51; stroke-width: 2.5; fill: none; }
.lbl { font: 600 13px sans-serif; fill: #222; }
.lbl-sm { font: 11px sans-serif; fill: #555; }
.tag-lin { fill: #2a9d8f; font: 600 12px sans-serif; }
.tag-quad { fill: #e76f51; font: 600 12px sans-serif; }
&lt;/style>
&lt;text x="360" y="20" text-anchor="middle" class="lbl">Cómputo acumulado para generar N tokens&lt;/text>
&lt;line class="ax" x1="80" y1="270" x2="680" y2="270"/>
&lt;line class="ax" x1="80" y1="40" x2="80" y2="270"/>
&lt;text x="380" y="300" text-anchor="middle" class="lbl-sm">tokens generados (N)&lt;/text>
&lt;text x="30" y="155" text-anchor="middle" class="lbl-sm" transform="rotate(-90 30 155)">cómputo relativo&lt;/text>
&lt;line class="grid" x1="80" y1="220" x2="680" y2="220"/>
&lt;line class="grid" x1="80" y1="170" x2="680" y2="170"/>
&lt;line class="grid" x1="80" y1="120" x2="680" y2="120"/>
&lt;line class="grid" x1="80" y1="70" x2="680" y2="70"/>
&lt;text x="75" y="274" text-anchor="end" class="lbl-sm">0&lt;/text>
&lt;text x="75" y="224" text-anchor="end" class="lbl-sm">25%&lt;/text>
&lt;text x="75" y="174" text-anchor="end" class="lbl-sm">50%&lt;/text>
&lt;text x="75" y="124" text-anchor="end" class="lbl-sm">75%&lt;/text>
&lt;text x="75" y="74" text-anchor="end" class="lbl-sm">100%&lt;/text>
&lt;text x="80" y="285" text-anchor="middle" class="lbl-sm">0&lt;/text>
&lt;text x="230" y="285" text-anchor="middle" class="lbl-sm">1K&lt;/text>
&lt;text x="380" y="285" text-anchor="middle" class="lbl-sm">2K&lt;/text>
&lt;text x="530" y="285" text-anchor="middle" class="lbl-sm">3K&lt;/text>
&lt;text x="680" y="285" text-anchor="middle" class="lbl-sm">4K&lt;/text>
&lt;!-- Lineal: pendiente suave -->
&lt;path class="lin" d="M80,270 L680,265"/>
&lt;!-- Cuadrática: parábola -->
&lt;path class="quad" d="M80,270 Q380,270 680,70"/>
&lt;text x="640" y="258" class="tag-lin">con KV cache (lineal)&lt;/text>
&lt;text x="500" y="100" class="tag-quad">sin KV cache (cuadrático)&lt;/text>
&lt;/svg>
&lt;/div>
&lt;p>Los números concretos son demoledores:&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th style="text-align:right">Tokens generados&lt;/th>
&lt;th style="text-align:right">Sin KV cache (operaciones)&lt;/th>
&lt;th style="text-align:right">Con KV cache&lt;/th>
&lt;th style="text-align:right">Ratio&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td style="text-align:right">128&lt;/td>
&lt;td style="text-align:right">8 256&lt;/td>
&lt;td style="text-align:right">128&lt;/td>
&lt;td style="text-align:right">64×&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td style="text-align:right">1 024&lt;/td>
&lt;td style="text-align:right">524 800&lt;/td>
&lt;td style="text-align:right">1 024&lt;/td>
&lt;td style="text-align:right">512×&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td style="text-align:right">4 096&lt;/td>
&lt;td style="text-align:right">8 390 656&lt;/td>
&lt;td style="text-align:right">4 096&lt;/td>
&lt;td style="text-align:right">2 048×&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td style="text-align:right">32 768&lt;/td>
&lt;td style="text-align:right">536 887 296&lt;/td>
&lt;td style="text-align:right">32 768&lt;/td>
&lt;td style="text-align:right">16 384×&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>A los 32 K tokens, &lt;strong>el cache te ahorra cuatro órdenes de magnitud&lt;/strong> de cómputo. No es una optimización: es lo que hace que la inferencia conversacional sea posible.&lt;/p>
&lt;h2 id="el-precio-cuánto-pesa-la-mochila">El precio: cuánto pesa la mochila&lt;/h2>
&lt;p>El KV cache se paga en VRAM. La fórmula, por &lt;strong>secuencia&lt;/strong>, es:&lt;/p>
&lt;pre tabindex="0">&lt;code>KV_size = 2 · n_layers · n_kv_heads · head_dim · context_len · bytes_per_param
↑
K y V
&lt;/code>&lt;/pre>&lt;p>Por &lt;strong>token&lt;/strong> (sin el &lt;code>context_len&lt;/code>), es una constante propia del modelo. Veamos números reales:&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Modelo&lt;/th>
&lt;th style="text-align:right">n_layers&lt;/th>
&lt;th style="text-align:right">n_kv_heads&lt;/th>
&lt;th style="text-align:right">head_dim&lt;/th>
&lt;th style="text-align:right">Bytes/token (BF16)&lt;/th>
&lt;th style="text-align:right">GB a 8 K ctx&lt;/th>
&lt;th style="text-align:right">GB a 32 K&lt;/th>
&lt;th style="text-align:right">GB a 128 K&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>Llama 3 8B (MHA hipotético)&lt;/td>
&lt;td style="text-align:right">32&lt;/td>
&lt;td style="text-align:right">32&lt;/td>
&lt;td style="text-align:right">128&lt;/td>
&lt;td style="text-align:right">524 288&lt;/td>
&lt;td style="text-align:right">4.00&lt;/td>
&lt;td style="text-align:right">16.00&lt;/td>
&lt;td style="text-align:right">64.00&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Llama 3 8B (GQA real)&lt;/strong>&lt;/td>
&lt;td style="text-align:right">32&lt;/td>
&lt;td style="text-align:right">8&lt;/td>
&lt;td style="text-align:right">128&lt;/td>
&lt;td style="text-align:right">131 072&lt;/td>
&lt;td style="text-align:right">&lt;strong>1.00&lt;/strong>&lt;/td>
&lt;td style="text-align:right">&lt;strong>4.00&lt;/strong>&lt;/td>
&lt;td style="text-align:right">&lt;strong>16.00&lt;/strong>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Llama 3 70B (GQA)&lt;/td>
&lt;td style="text-align:right">80&lt;/td>
&lt;td style="text-align:right">8&lt;/td>
&lt;td style="text-align:right">128&lt;/td>
&lt;td style="text-align:right">327 680&lt;/td>
&lt;td style="text-align:right">2.50&lt;/td>
&lt;td style="text-align:right">10.00&lt;/td>
&lt;td style="text-align:right">40.00&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Qwen3 8B (GQA)&lt;/td>
&lt;td style="text-align:right">36&lt;/td>
&lt;td style="text-align:right">8&lt;/td>
&lt;td style="text-align:right">128&lt;/td>
&lt;td style="text-align:right">147 456&lt;/td>
&lt;td style="text-align:right">1.12&lt;/td>
&lt;td style="text-align:right">4.50&lt;/td>
&lt;td style="text-align:right">18.00&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Mistral 7B (GQA)&lt;/td>
&lt;td style="text-align:right">32&lt;/td>
&lt;td style="text-align:right">8&lt;/td>
&lt;td style="text-align:right">128&lt;/td>
&lt;td style="text-align:right">131 072&lt;/td>
&lt;td style="text-align:right">1.00&lt;/td>
&lt;td style="text-align:right">4.00&lt;/td>
&lt;td style="text-align:right">16.00&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>Dos lecturas inmediatas:&lt;/p>
&lt;ol>
&lt;li>&lt;strong>Sin GQA, no hay 128 K que valga.&lt;/strong> Un Llama 3 8B con atención multi-head clásica necesitaría 64 GB sólo de KV cache para una única secuencia con 128 K tokens. Es decir, &lt;strong>no cabe en ninguna GPU consumer&lt;/strong>. Por eso Meta, Mistral y compañía adoptaron Grouped Query Attention.&lt;/li>
&lt;li>&lt;strong>El KV cache puede ser mayor que el modelo.&lt;/strong> Llama 3 8B BF16 ocupa ~16 GB. Con 128 K de contexto, su cache son otros 16 GB. Una sola sesión empata al modelo en VRAM.&lt;/li>
&lt;/ol>
&lt;div class="diagram" style="max-width: 720px; margin: 1.5rem auto;">
&lt;svg viewBox="0 0 720 280" xmlns="http://www.w3.org/2000/svg" role="img" aria-label="Crecimiento del KV cache con la longitud de contexto">
&lt;style>
.ax { stroke: #333; stroke-width: 1.5; }
.grid { stroke: #ddd; stroke-width: 1; stroke-dasharray: 3,3; }
.l8b { stroke: #2a9d8f; stroke-width: 2.5; fill: none; }
.l70b { stroke: #e76f51; stroke-width: 2.5; fill: none; }
.lq8 { stroke: #6a4c93; stroke-width: 2.5; fill: none; stroke-dasharray: 5,3; }
.lim { stroke: #c1121f; stroke-width: 1.5; stroke-dasharray: 4,4; }
.lbl { font: 600 13px sans-serif; fill: #222; }
.lbl-sm { font: 11px sans-serif; fill: #555; }
.tag { font: 600 11px sans-serif; }
&lt;/style>
&lt;text x="360" y="20" text-anchor="middle" class="lbl">KV cache (GB) vs longitud de contexto (1 secuencia, BF16)&lt;/text>
&lt;line class="ax" x1="80" y1="240" x2="680" y2="240"/>
&lt;line class="ax" x1="80" y1="40" x2="80" y2="240"/>
&lt;line class="grid" x1="80" y1="190" x2="680" y2="190"/>
&lt;line class="grid" x1="80" y1="140" x2="680" y2="140"/>
&lt;line class="grid" x1="80" y1="90" x2="680" y2="90"/>
&lt;text x="75" y="244" text-anchor="end" class="lbl-sm">0&lt;/text>
&lt;text x="75" y="194" text-anchor="end" class="lbl-sm">10&lt;/text>
&lt;text x="75" y="144" text-anchor="end" class="lbl-sm">20&lt;/text>
&lt;text x="75" y="94" text-anchor="end" class="lbl-sm">30&lt;/text>
&lt;text x="75" y="44" text-anchor="end" class="lbl-sm">40 GB&lt;/text>
&lt;text x="80" y="258" text-anchor="middle" class="lbl-sm">0&lt;/text>
&lt;text x="180" y="258" text-anchor="middle" class="lbl-sm">8K&lt;/text>
&lt;text x="305" y="258" text-anchor="middle" class="lbl-sm">32K&lt;/text>
&lt;text x="430" y="258" text-anchor="middle" class="lbl-sm">64K&lt;/text>
&lt;text x="680" y="258" text-anchor="middle" class="lbl-sm">128K&lt;/text>
&lt;!-- Limite VRAM disponible RTX 4090 (~8 GB libres tras modelo) -->
&lt;line class="lim" x1="80" y1="200" x2="680" y2="200"/>
&lt;text x="680" y="196" text-anchor="end" class="tag" fill="#c1121f">≈ VRAM libre tras cargar 8B en una 4090&lt;/text>
&lt;!-- Llama 3 8B GQA: lineal, 1 GB @8K, 16 GB @128K -->
&lt;path class="l8b" d="M80,240 L180,235 L305,220 L430,200 L680,160"/>
&lt;!-- Qwen3 8B GQA -->
&lt;path class="lq8" d="M80,240 L180,234 L305,217 L430,194 L680,150"/>
&lt;!-- Llama 3 70B GQA -->
&lt;path class="l70b" d="M80,240 L180,228 L305,190 L430,140 L680,40"/>
&lt;text x="690" y="160" class="tag" fill="#2a9d8f">Llama 3 8B&lt;/text>
&lt;text x="690" y="148" class="tag" fill="#6a4c93">Qwen3 8B&lt;/text>
&lt;text x="690" y="42" class="tag" fill="#e76f51">Llama 3 70B&lt;/text>
&lt;/svg>
&lt;/div>
&lt;p>La línea roja punteada marca la VRAM realista disponible en una RTX 4090 después de cargar el modelo. &lt;strong>Cualquier modelo cuya curva cruza esa línea no podrá servir ese contexto&lt;/strong> sin estrategias adicionales (cuantización del cache, offload, particionado).&lt;/p>
&lt;h2 id="la-inferencia-es-memory-bound-no-compute-bound">La inferencia es memory-bound, no compute-bound&lt;/h2>
&lt;p>Hay un equívoco común: pensar que &amp;ldquo;GPU rápida = inferencia rápida&amp;rdquo;. En el régimen donde realmente operan los servicios de inferencia con KV cache, &lt;strong>lo que se mide es el ancho de banda de memoria&lt;/strong>. Cada token nuevo exige leer las K y V de todos los tokens anteriores desde HBM. El cómputo es modesto; el movimiento de datos, masivo.&lt;/p>
&lt;p>Por eso, una H100 SXM (3.35 TB/s de HBM3) puede ser 2–3× más rápida que una A100 (1.55–2 TB/s) &lt;strong>sin que la frecuencia ni el número de cores expliquen del todo la diferencia&lt;/strong>. Lo explica el ancho de banda.&lt;/p>
&lt;p>Y por eso, también, las ofertas de &amp;ldquo;GPU baratas con mucha VRAM pero HBM lenta&amp;rdquo; (algunas variantes con GDDR6 o LPDDR5) decepcionan en inferencia con contextos largos: tienen sitio para guardar el cache pero les cuesta una eternidad releerlo.&lt;/p>
&lt;h2 id="trucos-para-que-el-cuaderno-sea-más-fino">Trucos para que el cuaderno sea más fino&lt;/h2>
&lt;p>Tres técnicas, en orden cronológico, han ido aplanando el tamaño del KV cache:&lt;/p>
&lt;p>&lt;strong>Multi-Head Attention (MHA).&lt;/strong> El planteamiento original del transformer (Vaswani et al., 2017). Cada cabeza de atención tiene su propia K y V. Caro en cache pero teóricamente máximo en expresividad. Es lo que tenían los modelos hasta ~2023.&lt;/p>
&lt;p>&lt;strong>Multi-Query Attention (MQA).&lt;/strong> Una sola K y V compartida por todas las cabezas. Reduce el cache &lt;code>n_heads&lt;/code> veces. Funciona razonablemente pero degrada calidad de generación en algunos benchmarks.&lt;/p>
&lt;p>&lt;strong>Grouped Query Attention (GQA).&lt;/strong> El término medio que ha ganado. Las cabezas se agrupan: en Llama 3 8B, 32 cabezas de query comparten K, V en grupos de 4 → 8 grupos de KV. Reduce el cache 4× respecto a MHA con casi idéntica calidad. Es el estándar de facto desde 2024.&lt;/p>
&lt;p>&lt;strong>Multi-Head Latent Attention (MLA).&lt;/strong> La innovación de DeepSeek-V2/V3: en vez de almacenar K, V por cabeza, comprime el estado en un vector latente más pequeño y proyecta a K, V en el momento. El cache puede llegar a 70 bytes/token, dos órdenes de magnitud menos que GQA. Es la razón principal por la que DeepSeek-V3 (671 B parámetros, 37 B activos) es servible en infraestructura abordable.&lt;/p>
&lt;div class="diagram" style="max-width: 640px; margin: 1.5rem auto;">
&lt;svg viewBox="0 0 640 200" xmlns="http://www.w3.org/2000/svg" role="img" aria-label="Reducción del KV cache por técnica">
&lt;style>
.bar { stroke: #333; stroke-width: 1; }
.b-mha { fill: #e76f51; }
.b-gqa { fill: #f4a261; }
.b-mqa { fill: #e9c46a; }
.b-mla { fill: #2a9d8f; }
.lbl { font: 600 13px sans-serif; fill: #222; }
.lbl-sm{ font: 11px sans-serif; fill: #444; }
&lt;/style>
&lt;text x="320" y="20" text-anchor="middle" class="lbl">KB de cache por token (Llama 3 8B equivalente, BF16)&lt;/text>
&lt;rect x="200" y="40" width="380" height="22" class="bar b-mha"/>
&lt;text x="170" y="56" text-anchor="end" class="lbl-sm">MHA (32 KV heads)&lt;/text>
&lt;text x="595" y="56" class="lbl-sm">512 KB&lt;/text>
&lt;rect x="200" y="76" width="95" height="22" class="bar b-gqa"/>
&lt;text x="170" y="92" text-anchor="end" class="lbl-sm">GQA (8 KV heads)&lt;/text>
&lt;text x="310" y="92" class="lbl-sm">128 KB&lt;/text>
&lt;rect x="200" y="112" width="12" height="22" class="bar b-mqa"/>
&lt;text x="170" y="128" text-anchor="end" class="lbl-sm">MQA (1 KV head)&lt;/text>
&lt;text x="225" y="128" class="lbl-sm">16 KB&lt;/text>
&lt;rect x="200" y="148" width="3" height="22" class="bar b-mla"/>
&lt;text x="170" y="164" text-anchor="end" class="lbl-sm">MLA (DeepSeek-V3)&lt;/text>
&lt;text x="215" y="164" class="lbl-sm">~0.5 KB (real V3)&lt;/text>
&lt;/svg>
&lt;/div>
&lt;blockquote>
&lt;p>&lt;strong>Nota:&lt;/strong> la barra de MLA es ilustrativa con valores típicos publicados por DeepSeek; la implementación exacta depende del tamaño latente. Lo importante es el orden de magnitud.&lt;/p>
&lt;/blockquote>
&lt;p>A esto se suma una cuarta técnica ortogonal: &lt;strong>cuantizar el cache&lt;/strong> a FP8, INT8 o incluso INT4. vLLM y TensorRT-LLM ya lo soportan en producción. Pasar de BF16 (2 bytes) a FP8 (1 byte) &lt;strong>divide el cache por dos&lt;/strong> con coste pequeño en calidad. Pasar a INT4, por cuatro, con coste algo mayor.&lt;/p>
&lt;h2 id="el-siguiente-dragón-la-fragmentación">El siguiente dragón: la fragmentación&lt;/h2>
&lt;p>Hasta aquí hemos hablado del cache como si fuera un bloque contiguo. En la práctica, un servidor de inferencia atiende &lt;strong>decenas de sesiones simultáneas&lt;/strong>, cada una con su propio cache que crece a un ritmo distinto. La asignación naïve —reservar el máximo posible por sesión— &lt;strong>desperdicia entre el 60 % y el 80 % de la VRAM&lt;/strong> según el paper original de PagedAttention.&lt;/p>
&lt;div class="diagram" style="max-width: 720px; margin: 1.5rem auto;">
&lt;svg viewBox="0 0 720 240" xmlns="http://www.w3.org/2000/svg" role="img" aria-label="Fragmentación del KV cache: naïve vs PagedAttention">
&lt;style>
.used { fill: #2a9d8f; stroke: #1a6e63; stroke-width: 1; }
.free { fill: #f0e7d8; stroke: #aaa; stroke-width: 1; }
.blk { stroke: #555; stroke-width: 0.5; }
.lbl { font: 600 13px sans-serif; fill: #222; }
.lbl-sm { font: 11px sans-serif; fill: #444; }
&lt;/style>
&lt;text x="180" y="22" text-anchor="middle" class="lbl">Asignación naïve (contigua)&lt;/text>
&lt;text x="540" y="22" text-anchor="middle" class="lbl">PagedAttention (bloques)&lt;/text>
&lt;!-- Naive: 4 sesiones reservan el máximo, usan poco -->
&lt;text x="30" y="60" class="lbl-sm">sesión A&lt;/text>
&lt;rect x="90" y="48" width="50" height="18" class="used"/>
&lt;rect x="140" y="48" width="180" height="18" class="free"/>
&lt;text x="30" y="92" class="lbl-sm">sesión B&lt;/text>
&lt;rect x="90" y="80" width="25" height="18" class="used"/>
&lt;rect x="115" y="80" width="205" height="18" class="free"/>
&lt;text x="30" y="124" class="lbl-sm">sesión C&lt;/text>
&lt;rect x="90" y="112" width="100" height="18" class="used"/>
&lt;rect x="190" y="112" width="130" height="18" class="free"/>
&lt;text x="30" y="156" class="lbl-sm">sesión D&lt;/text>
&lt;rect x="90" y="144" width="35" height="18" class="used"/>
&lt;rect x="125" y="144" width="195" height="18" class="free"/>
&lt;text x="180" y="190" text-anchor="middle" class="lbl-sm">→ ~70 % de VRAM reservada y vacía&lt;/text>
&lt;!-- PagedAttention: bloques pequeños, ocupación densa -->
&lt;g transform="translate(400,40)">
&lt;!-- 8 bloques x 5 filas -->
&lt;g>
&lt;!-- fila 1 -->
&lt;rect x="0" y="0" width="30" height="20" class="used blk"/>
&lt;rect x="30" y="0" width="30" height="20" class="used blk"/>
&lt;rect x="60" y="0" width="30" height="20" class="used blk"/>
&lt;rect x="90" y="0" width="30" height="20" class="used blk"/>
&lt;rect x="120" y="0" width="30" height="20" class="used blk"/>
&lt;rect x="150" y="0" width="30" height="20" class="used blk"/>
&lt;rect x="180" y="0" width="30" height="20" class="used blk"/>
&lt;rect x="210" y="0" width="30" height="20" class="used blk"/>
&lt;rect x="0" y="22" width="30" height="20" class="used blk"/>
&lt;rect x="30" y="22" width="30" height="20" class="used blk"/>
&lt;rect x="60" y="22" width="30" height="20" class="used blk"/>
&lt;rect x="90" y="22" width="30" height="20" class="used blk"/>
&lt;rect x="120" y="22" width="30" height="20" class="used blk"/>
&lt;rect x="150" y="22" width="30" height="20" class="used blk"/>
&lt;rect x="180" y="22" width="30" height="20" class="free blk"/>
&lt;rect x="210" y="22" width="30" height="20" class="free blk"/>
&lt;rect x="0" y="44" width="30" height="20" class="used blk"/>
&lt;rect x="30" y="44" width="30" height="20" class="used blk"/>
&lt;rect x="60" y="44" width="30" height="20" class="used blk"/>
&lt;rect x="90" y="44" width="30" height="20" class="free blk"/>
&lt;rect x="120" y="44" width="30" height="20" class="free blk"/>
&lt;rect x="150" y="44" width="30" height="20" class="free blk"/>
&lt;rect x="180" y="44" width="30" height="20" class="free blk"/>
&lt;rect x="210" y="44" width="30" height="20" class="free blk"/>
&lt;/g>
&lt;/g>
&lt;text x="540" y="190" text-anchor="middle" class="lbl-sm">→ &amp;lt; 4 % desperdicio (paper vLLM)&lt;/text>
&lt;/svg>
&lt;/div>
&lt;p>&lt;strong>PagedAttention&lt;/strong> —la idea de Kwon et al. (2023) que dio origen a vLLM— resuelve esto pidiendo prestada una técnica de los sistemas operativos: dividir la VRAM en &lt;strong>bloques&lt;/strong> pequeños (típicamente de 16 tokens) y mantener una &lt;strong>tabla de páginas&lt;/strong> lógicas → físicas por sesión. Una sesión ya no reserva un bloque contiguo enorme: crece un bloque cada vez, y los bloques pueden estar dispersos por la VRAM. Resultado: ocupación efectiva del 90 % en lugar del 30 %, y por tanto &lt;strong>2–4× más throughput agregado&lt;/strong> en el mismo hardware.&lt;/p>
&lt;p>PagedAttention merece artículo propio. Lo dejo apuntado para el siguiente.&lt;/p>
&lt;h2 id="dos-escenarios-workstation-vs-cluster">Dos escenarios: workstation vs cluster&lt;/h2>
&lt;p>Bajemos a casos concretos y comparemos las dos puntas del espectro de hardware on-premise: una &lt;strong>workstation con una GPU consumer&lt;/strong> frente a un &lt;strong>cluster de GPUs de datacenter&lt;/strong>. Mismas matemáticas, dos órdenes de magnitud de diferencia en lo que pueden servir.&lt;/p>
&lt;h3 id="escenario-a--una-rtx-4090-24-gb-ada-lovelace">Escenario A — Una RTX 4090 (24 GB, Ada Lovelace)&lt;/h3>
&lt;p>Configuración típica con Qwen3-8B BF16:&lt;/p>
&lt;pre tabindex="0">&lt;code>Modelo BF16: ~16 GB
Activations + overhead: ~2 GB
VRAM disponible para KV cache: ~6 GB (con margen)
&lt;/code>&lt;/pre>&lt;p>Con 144 KB/token (Qwen3-8B GQA), eso son &lt;strong>~43 K tokens totales de cache&lt;/strong> distribuidos entre todas las sesiones simultáneas. En la práctica:&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th style="text-align:right">Concurrencia&lt;/th>
&lt;th style="text-align:right">Contexto máximo por sesión&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td style="text-align:right">1&lt;/td>
&lt;td style="text-align:right">32 768&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td style="text-align:right">4&lt;/td>
&lt;td style="text-align:right">8 192&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td style="text-align:right">8&lt;/td>
&lt;td style="text-align:right">4 096&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td style="text-align:right">16&lt;/td>
&lt;td style="text-align:right">2 048&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>Si necesitas anunciar &amp;ldquo;soportamos 32 K de contexto&amp;rdquo; con concurrencia 4+, hay que &lt;strong>cuantizar el cache&lt;/strong> (FP8 baja a 72 KB/token, duplica capacidad) o &lt;strong>subir el modelo de gama&lt;/strong> (un 4B con GQA y cache cuantizado holgaría).&lt;/p>
&lt;h3 id="escenario-b--cluster-de-5h100-sxm-400-gb-agregados-nvlink">Escenario B — Cluster de 5×H100 SXM (400 GB agregados, NVLink)&lt;/h3>
&lt;p>Con tensor parallel = 5 y Llama 3 70B BF16:&lt;/p>
&lt;pre tabindex="0">&lt;code>Modelo BF16: ~140 GB (28 GB/GPU)
Overhead vLLM por GPU: ~2 GB
VRAM libre para KV por GPU: ~50 GB → ~250 GB agregados
&lt;/code>&lt;/pre>&lt;p>Con 320 KB/token (Llama 3 70B GQA), eso son &lt;strong>~800 K tokens totales de cache&lt;/strong>. Mucho margen para servir contextos largos con concurrencia alta:&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th style="text-align:right">Concurrencia&lt;/th>
&lt;th style="text-align:right">Contexto máximo por sesión&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td style="text-align:right">4&lt;/td>
&lt;td style="text-align:right">200 000&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td style="text-align:right">16&lt;/td>
&lt;td style="text-align:right">50 000&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td style="text-align:right">64&lt;/td>
&lt;td style="text-align:right">12 500&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>Para DeepSeek-V3 671 B con MLA: la economía cambia radicalmente porque el cache es ~100× más fino. Lo que limita ya no es el cache sino la VRAM del propio modelo (cuantizado FP8 son ~671 GB → no cabe en 5×H100, hace falta cluster mayor o FP4).&lt;/p>
&lt;h3 id="a-y-b-lado-a-lado">A y B, lado a lado&lt;/h3>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Métrica&lt;/th>
&lt;th style="text-align:right">Escenario A (1×4090)&lt;/th>
&lt;th style="text-align:right">Escenario B (5×H100 SXM)&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>VRAM total&lt;/td>
&lt;td style="text-align:right">24 GB&lt;/td>
&lt;td style="text-align:right">400 GB (≈ 17×)&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Modelo servible (BF16)&lt;/td>
&lt;td style="text-align:right">Hasta ~8 B&lt;/td>
&lt;td style="text-align:right">Hasta ~70 B&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>KV cache disponible&lt;/td>
&lt;td style="text-align:right">~6 GB&lt;/td>
&lt;td style="text-align:right">~250 GB (≈ 42×)&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Tokens totales de cache&lt;/td>
&lt;td style="text-align:right">~43 K&lt;/td>
&lt;td style="text-align:right">~800 K (≈ 19×)&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Ancho de banda HBM&lt;/td>
&lt;td style="text-align:right">1.0 TB/s (GDDR6X)&lt;/td>
&lt;td style="text-align:right">3.35 TB/s/GPU&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Coste indicativo&lt;/td>
&lt;td style="text-align:right">~2 K €&lt;/td>
&lt;td style="text-align:right">~250 K € (≈ 125×)&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>La asimetría interesante: pasar de A a B cuesta unas 125× más, pero sólo da ~19× más cache total. Lo que el cluster compra de verdad no es proporcionalmente más contexto: es &lt;strong>modelos un orden de magnitud más grandes&lt;/strong> servibles a la vez (8 B → 70 B), &lt;strong>ancho de banda HBM 3× mayor por GPU&lt;/strong> y &lt;strong>concurrencia muy alta sin degradar latencia&lt;/strong>. Si tu carga real es &amp;ldquo;modelos pequeños con mucho contexto y baja concurrencia&amp;rdquo;, la 4090 cuantizada rinde mucho más cerca del cluster de lo que el precio sugiere. Si es &amp;ldquo;modelo grande, baja latencia, muchos usuarios&amp;rdquo;, el salto a HBM3 + NVLink no se sustituye con más 4090s.&lt;/p>
&lt;h3 id="implicaciones-operativas">Implicaciones operativas&lt;/h3>
&lt;p>Tres observaciones para llevarse:&lt;/p>
&lt;p>Primero, &lt;strong>el contexto máximo anunciado por un modelo no es el que puedes servir en tu hardware&lt;/strong>. Llama 3 8B &amp;ldquo;soporta&amp;rdquo; 128 K, pero en una 4090 con 4 sesiones simultáneas tu contexto efectivo son ~8 K. Es trivial comprobarlo antes de comprometerse a un SLA.&lt;/p>
&lt;p>Segundo, &lt;strong>cuantizar el KV cache es de las optimizaciones con mejor relación coste/beneficio&lt;/strong>. No toca los pesos, no afecta a la reproducibilidad de las salidas y duplica capacidad. vLLM lo soporta vía &lt;code>--kv-cache-dtype fp8&lt;/code>.&lt;/p>
&lt;p>Tercero, &lt;strong>si los SLA dictan contextos largos con muchos usuarios concurrentes, GQA es necesario pero no suficiente&lt;/strong>. A medio plazo, hay que mirar modelos con MLA o variantes de attention con compresión.&lt;/p>
&lt;h2 id="lo-que-no-hemos-cubierto-próximos-artículos">Lo que no hemos cubierto (próximos artículos)&lt;/h2>
&lt;ul>
&lt;li>&lt;strong>PagedAttention&lt;/strong> y su implementación en vLLM: bloques, tabla de páginas, evicción.&lt;/li>
&lt;li>&lt;strong>Prefix caching&lt;/strong>: cuando varias peticiones comparten el system prompt, no hace falta recomputar las K, V de la parte común.&lt;/li>
&lt;li>&lt;strong>Speculative decoding&lt;/strong> y su interacción con el cache.&lt;/li>
&lt;li>&lt;strong>Cache offloading&lt;/strong>: mover bloques fríos a RAM o a NVMe, técnica clave para contextos &amp;gt; 1 M.&lt;/li>
&lt;/ul>
&lt;h2 id="referencias">Referencias&lt;/h2>
&lt;ul>
&lt;li>Vaswani et al., &lt;em>Attention Is All You Need&lt;/em> (NeurIPS 2017) — paper fundacional del transformer.&lt;/li>
&lt;li>Ainslie et al., &lt;em>GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints&lt;/em> (EMNLP 2023).&lt;/li>
&lt;li>Kwon et al., &lt;em>Efficient Memory Management for Large Language Model Serving with PagedAttention&lt;/em> (SOSP 2023) — paper original de vLLM.&lt;/li>
&lt;li>DeepSeek-AI, &lt;em>DeepSeek-V2 Technical Report&lt;/em> (2024) — introducción de Multi-Head Latent Attention.&lt;/li>
&lt;li>Documentación oficial de vLLM: &lt;a href="https://docs.vllm.ai/">https://docs.vllm.ai/&lt;/a>.&lt;/li>
&lt;li>Llama 3 model card (Meta): especificaciones GQA, n_layers, n_kv_heads.&lt;/li>
&lt;/ul></description></item></channel></rss>