OpenAI presentó Codex Security, un agente de seguridad de aplicaciones en vista previa de investigación que, de acuerdo con el anuncio oficial del 6 de marzo de 2026, escaneó más de 1.2 millones de commits y reportó 792 hallazgos críticos y 10.561 de alta severidad en los últimos 30 días. Esta cifra es la tarjeta de presentación de la compañía: promete menos ruido y parches más alineados al contexto del sistema. El primer párrafo debe leerse solo: Codex Security se ofrece hoy a clientes ChatGPT Enterprise, Business y Edu, con un mes de uso gratuito inicial, según OpenAI.
¿Qué es Codex Security y qué promete?
Codex Security combina los “frontier models” de OpenAI con un agente llamado Codex para construir un modelo de amenazas específico por repositorio, priorizar hallazgos y, cuando es posible, validar exploits en entornos sandbox. Según OpenAI, durante la beta privada mostraron mejoras cuantificables: en un caso la herramienta redujo el ruido en un 84% desde el despliegue inicial, la tasa de hallazgos con severidad sobre-reportada cayó más del 90% y los falsos positivos disminuyeron en más del 50% (según OpenAI, 6/3/2026). Esos porcentajes son prometedores porque atacan el problema real: los equipos de seguridad pasan más tiempo en triage que en corrección.
Codex Security también puede proponer parches que, según la compañía, respetan la intención del sistema para minimizar regresiones. La capacidad de editar el modelo de amenazas y que el agente aprenda del feedback del equipo es útil en teoría; en la práctica eso requiere controles claros sobre quién puede enseñar al sistema y qué datos quedan registrados.
¿Cómo cambia el trabajo de los equipos de seguridad?
Promete reducir la carga de triage. OpenAI reporta que en los últimos 30 días Codex Security identificó 792 hallazgos críticos entre más de 1.2 millones de commits, lo que representa que los hallazgos críticos aparecieron en menos del 0.1% de los commits analizados (de acuerdo con OpenAI, 6/3/2026). Esa proporción sugiere que el sistema prioriza hallazgos de alto impacto, pero no resuelve por sí solo dos cuellos de botella: la validación en entornos de producción y la revisión humana final.
La función de validación en sandbox es relevante: cuando Codex puede ejecutar pruebas en un entorno configurado para el proyecto, la empresa dice que la herramienta crea pruebas de concepto ejecutables que facilitan la remediación. Aun así, automatizar parches abre riesgos —por ejemplo, cambios que introduzcan regresiones en servicios críticos—, por lo que es imprescindible que los equipos mantengan revisiones humanas obligatorias antes de mergear.
¿Cómo impacta esto en el mercado argentino?
Para empresas y equipos de seguridad en Argentina la pregunta práctica es la disponibilidad, el idioma y las garantías contractuales. OpenAI anuncia despliegue a ChatGPT Enterprise, Business y Edu, y un mes gratuito inicial; sin embargo, no hay en el comunicado detalles sobre disponibilidad regional, latencia, ni si habrá soporte o precios locales. Eso importa: muchas pymes y equipos de desarrollo en la región requieren opciones con facturación y cumplimiento local.
También hay impacto en el ecosistema open source que usamos acá: OpenAI dice que ya usaron Codex Security para subir hallazgos en proyectos como vLLM y que empezaron un programa para maintainers de OSS. Eso es útil; según OpenAI, algunas vulnerabilidades encontradas ya recibieron CVE públicos. Pero la adopción real en la región va a depender de si OpenAI publica métricas públicas de rendimiento por idioma/región, y de que garantice que el código escaneado no se incorporará a modelos comerciales sin consentimiento explícito.
Riesgos y preguntas abiertas (gobernanza y datos)
El avance técnico es real; la beta reporta números concretos. Pero quedan preguntas de gobernanza: ¿cómo se auditan los parches propuestos?, ¿quién aprueba los cambios automatizados?, ¿qué retenemos de los repositorios para mejorar los modelos? OpenAI afirma que Codex Security aprende del feedback del equipo, pero el comunicado no detalla políticas sobre retención o uso comercial del código escaneado (OpenAI News, 6/3/2026). Eso debe aclararse.
Desde nuestra perspectiva, valoramos el aporte técnico pero exigimos tres condiciones mínimas: métricas públicas y reproducibles sobre precisión y cobertura por región; disponibilidad y precios claros para LATAM; y gobernanza explícita que garantice revisión humana obligatoria y reglas sobre si el código aportado puede usarse para entrenamiento comercial. Sin esas garantías, la herramienta puede ayudar técnicamente pero generar riesgos operativos y éticos para equipos locales.