Alignment moderno: DPO, KTO, ORPO y SimPO — el sumiller que aprende sin recibir reward model27 may. 2026