IA

IA es la vertical más extensa del blog. Cubre lo que un equipo necesita para llevar modelos generativos (LLM) a producción en sistemas soberanos: el pipeline LLMOps completo, los motores de inferencia, los datos, el entrenamiento y la observabilidad.

👉 Empieza aquí: Anatomía de una petición LLM en producción — el tour completo de una sola request real atravesando las seis etapas del pipeline LLMOps. Si sólo lees un post de esta vertical, lee ese. Sirve como mapa mental de todo el resto.

Cómo se organiza la vertical

Los posts se agrupan por sub-tema (visible vía tags):

  • llmops — pipeline de seis etapas, anatomías de petición, panoramas, catálogos OSS vs hyperscalers.
  • inferencia-llm — KV cache, PagedAttention, disaggregated serving, vLLM en Kubernetes, cluster GPU multi-tenant.
  • datos-llm — ingestión con PostgreSQL + Qdrant, RAG sobre Kafka, data versioning con DVC y lakeFS.
  • entrenamiento-llm — fine-tuning continuo con LoRA, retrain cíclico, prompt versioning.
  • evals y safety — golden sets, judge LLM, jailbreak resistance, PII, prompt injection.
  • observabilidad-llm — tracing OTel, MCP observability, eBPF para drift detection.

Por dónde empezar

Si no has trabajado nunca con LLMs en producción, arranca por MLOps específico para LLMs en 2026 y luego El pipeline LLMOps de seis etapas. Si ya operas un sistema LLM, salta directamente al recorrido forense de una request real: Anatomía de una petición LLM en producción.

Para la decisión OSS vs cloud, los dos catálogos complementarios: OSS vs hyperscalers (AWS, GCP, Azure) y El catálogo OSS ficha por ficha.

Para ingenieros de plataforma

Varios posts cubren la parte de infraestructura GPU + Kubernetes que sostiene la inferencia LLM: vLLM en Kubernetes, Operators LLM en K8s y Cluster GPU multi-tenant. Estos posts viven en IA pero llevan tag kubernetes y por tanto también aparecen al filtrar por esa etiqueta.

2026