Por qué los 'goblins' aparecieron en GPT‑5 y qué nos enseña OpenAI

OpenAI detectó que desde GPT‑5.1 las menciones a “goblin” en respuestas aumentaron un 175% respecto a antes del lanzamiento, y atribuye el fenómeno a incentivos ligados a una personalidad llamada “Nerdy” (OpenAI News, 29/4/2026). Vemos el caso como un ejemplo compacto de cómo pequeñas señales de recompensa pueden producir cambios de estilo amplificados durante la cadena de entrenamiento.

¿Qué pasó, en términos concretos?

OpenAI explicó que el aumento no fue un bug típico, sino la consecuencia de múltiples incentivos pequeños. La personalidad “Nerdy” —un prompt de sistema diseñado para un tono juguetón y analítico— representó apenas el 2.5% de todas las respuestas de ChatGPT, pero concentró el 66.7% de las menciones a “goblin” en producción (OpenAI News, 29/4/2026). Tras GPT‑5.1 la palabra “goblin” subió 175% y “gremlin” 52% en uso, según la misma nota. En auditorías de conjuntos de datos, la señal de recompensa asociada al estilo Nerdy puntuó más alto outputs con criaturas en 76.2% de los datasets revisados; ese sesgo fue identificado como el punto focal que amplificó el tic léxico (OpenAI News, 29/4/2026).

¿Por qué ocurrió desde el punto de vista técnico?

La explicación técnica que ofrece OpenAI combina refuerzo y reutilización de datos. Durante entrenamiento con RL, la recompensa que favorecía el estilo Nerdy premió metáforas con criaturas; esos outputs se usaron luego en rollouts para supervised fine‑tuning (SFT). Una vez que el modelo generó más ejemplos con “goblin” en rollouts, esos ejemplos entraron en SFT y reforzaron el patrón: un clásico bucle de retroalimentación. Además, aunque la señal se aplicó solo en la condición Nerdy, el comportamiento se transfirió: las menciones aumentaron en muestras sin el prompt Nerdy en proporciones similares, lo que demuestra que las conductas aprendidas por recompensa no siempre quedan restringidas a la condición origen (OpenAI News, 29/4/2026).

¿Qué implicancias para gobernanza y seguridad de modelos?

El episodio es una lección práctica: sin métricas finas y trazabilidad de señales de recompensa, comportamientos de menor riesgo aparente pueden propagarse. OpenAI respondió retirando la personalidad “Nerdy” en marzo y eliminando la señal de recompensa y ejemplos con palabras de criaturas del SFT, pero GPT‑5.5 ya había comenzado su entrenamiento antes de la corrección, y el problema reapareció en pruebas internas de Codex (OpenAI News, 29/4/2026). Vemos que es necesario: 1) publicar métricas públicas y conjuntos de pruebas replicables en idiomas locales; 2) documentar en español los cambios de comportamiento; y 3) exigir revisión humana y auditorías rápidas cuando una métrica léxica se desvíe significativamente del histórico.

¿Cómo impacta esto en el mercado argentino?

En la práctica, este tipo de tics puede erosionar confianza en aplicaciones comerciales y en sectores regulados. Para empresas y gobiernos argentinos que evalúan integrar modelos, la recomendación es exigir métricas públicas y documentación en español que expliquen qué señales de recompensa se usaron y cómo se mitigaron efectos no deseados. OpenAI mostró números concretos (2.5% vs. 66.7%, aumento 175%) que permiten auditar el problema; esa transparencia debe ser la base contractual en implementaciones públicas. Además, recomendamos controles de pre‑despliegue con revisión humana y pruebas en castellano para detectar transferencias de estilo antes de poner modelos en servicios al cliente o en decisiones automatizadas. Sin esas garantías, un tic que parece inofensivo puede afectar percepciones y riesgos operativos localmente.

¿Qué pasó, en términos concretos?

¿Por qué ocurrió desde el punto de vista técnico?

¿Qué implicancias para gobernanza y seguridad de modelos?

¿Cómo impacta esto en el mercado argentino?

Segui leyendo

Hugging Face describe datos sintéticos 'task‑seeded' que mejoran Nemotron en 100B tokens

Qué es Gemini Spark, qué puede hacer y quién podrá usarlo

Apple relanza Siri con Gemini: segunda oportunidad y muchas dudas