Hugging Face reporta que Direct Preference Optimization (DPO), aplicado tras un fine-tuning supervisado, redujo la tasa de degeneración de texto en OCR en un 59.4% en promedio respecto a SFT solo (Hugging Face blog, 3/6/2026). Este es el dato central: la intervención post-SFT aprovecha las propias salidas fallidas del modelo como pares de preferencia “elegido/rechazado” para castigar completaciones repetitivas que SFT no penaliza explícitamente.

¿Qué mostraron exactamente los experimentos?

El trabajo de DharmaOCR (Cardoso et al., arXiv:2604.14314, 2026) entrenó la etapa DPO sobre 23.726 documentos de prueba para generar múltiples candidatos por entrada y construir pares mediante un juez automático (23.726 según el paper). El benchmark analizó cinco familias de modelos y reportó rangos de reducción de degeneración relativos a SFT que van del 37.3% al 87.6%, con un promedio de 59.4% (según Hugging Face, 3/6/2026). Casos concretos: Nanonets-OCR2–3B pasó de 1.61% a 0.20% tras DPO, y gemma-3–4b-it redujo una degeneración inicial de 33.96% en bruto a una reducción del 75% después de la etapa DPO (datos del blog de Hugging Face y el paper en arXiv). Estos números confirman que el efecto es robusto frente a arquitecturas y escalas distintas, aunque la magnitud varía.

¿Por qué SFT no alcanza y qué mete DPO en la ecuación?

La explicación técnica es clara y no mística: SFT optimiza token a token y maximiza la probabilidad de secuencias observadas, por lo que no incorpora un término que penalice completaciones repetitivas a nivel de output completo (ver Holtzman et al., 2020 sobre degeneración). DPO invierte esa granularidad: entrena sobre pares donde una salida completa es elegida y otra es rechazada, lo que permite etiquetar explícitamente una repetición como resultado erróneo. Rafailov et al. (2023) ya mostraron DPO en alineamiento conversacional; DharmaOCR extiende la idea a tareas estructuradas usando las propias fallas del modelo como señal negativa. El punto práctico es que DPO ataca la ‘geometría’ de la distribución que genera atractores de repetición, algo que las intervenciones en inferencia (penalidades de repetición, temperatura) solo mitigan temporalmente.

¿Cómo impacta esto en empresas y qué debería pedir un equipo en Argentina?

La lección para product teams es doble: técnico y de gobernanza. En lo técnico, la técnica es aplicable cuando el fallo es categórico, detectible automáticamente y suficientemente frecuente para generar pares (estas son las tres condiciones que el blog señala). Empíricamente, DharmaOCR probó la idea en cinco familias de modelos y la relación SFT→SFT+DPO fue consistente en dirección (Hugging Face, 3/6/2026). En lo de gobernanza, apoyamos que se use DPO como herramienta de mejora, pero exigimos que cualquier despliegue comercial publique métricas públicas de degeneración y calidad, ofrezca documentación en español y mantenga una capa de revisión humana antes de producción. Esa postura es coherente con nuestra demanda previa hacia proveedores de IA sobre transparencia y revisión humana.

Como recomendación operativa: antes de invertir en una etapa DPO, equipos en LATAM deberían confirmar tres cosas medibles —frecuencia del fallo en su dominio, robustez del juez automático y costo de generar pares— y pedir a proveedores métricas replicables. Si una compañía promete reducción de degeneración, que lo demuestre con cifras reproducibles y documentación en español (exigencia mínima para adopción regional).