Capacity planning para inferencia LLM on-premise: cómo dimensionar GPUs a partir de un SLO1 jun. 2026