Operators de inferencia LLM en Kubernetes: OME, vLLM Production Stack, NVIDIA Dynamo y llm-d18 may. 2026
PagedAttention por dentro: bloques, tabla de páginas, evicción y el estado del arte del KV cache en 202618 may. 2026