OpenAI y Thrive lanzan Tax AI que se auto-mejora en producción

OpenAI y Thrive construyeron un agente llamado Tax AI que procesó 7.000 declaraciones en la temporada piloto y, según la propia nota oficial, ahorró a los contadores aproximadamente un tercio del tiempo de preparación y alcanzó hasta 97% de precisión en borradores de returnas (OpenAI News, 27/5/2026).

¿De qué se trata y cómo funciona?

Tax AI combina tres pilares: feedback de practicantes, trazas de producción que documentan el camino desde los documentos hasta el filing, y un bucle de mejora impulsado por Codex. En la prueba piloto participaron más de 30 firmas de contabilidad dentro de la red de Crete, y el sistema procesó 7.000 declaraciones durante la temporada (OpenAI News, 27/5/2026). Al diseñar el producto para que la corrección humana quede registrada como datos estructurados, los errores repetidos se convierten en objetivos de evaluación que Codex investiga y procesa en tareas acotadas. Esa ingeniería de producto es la diferencia práctica: no es solo usar IA en producción, sino generar evidencia operativa para que la IA proponga cambios validados contra evals y suites de regresión antes de enviar pull requests para revisión humana.

¿Cómo impacta esto en el mercado argentino?

Vemos tres efectos directos para firmas y contadores en Argentina: eficiencia, cambio en el servicio y riesgo regulatorio. En el piloto, la throughput subió cerca de 50% y un caso concreto redujo 180 horas de trabajo a 15 horas por contadora en un año, lo que ilustra el potencial de reorientación del tiempo hacia atención al cliente o nuevos servicios (OpenAI News, 27/5/2026). Para despachos argentinos que manejan picos de temporada, esto podría significar absorber más clientes sin contratar personal adicional, pero también exige respuestas regulatorias: ¿quién responde por errores fiscales automatizados y cómo auditar esos procesos? No hay cifras públicas aún sobre adopción local; por eso es clave exigir documentación en español y métricas públicas antes de probarlo con datos reales de contribuyentes.

¿Es realmente “auto-mejorable”? Qué mide y qué no

OpenAI reporta mejoras cuantificables: al lanzamiento solo 25% de las declaraciones alcanzaba 75% de campos correctos y en seis semanas ese porcentaje llegó a 86% (OpenAI News, 27/5/2026). Esos saltos muestran que, con trazas ricas y correcciones humanas sistematizadas, un agente puede identificar patrones repetidos y priorizar los problemas que más impacto tienen. Pero hay límites: la auto-mejora se aplica a una capa acotada del producto —extracción y mapeo— y los ingenieros siguen siendo responsables de arquitectura, decisiones de producto y seguridad. Además, una corrección humana puede reflejar juicio fiscal, preferencia del cliente o ruido de flujo de trabajo; por eso el sistema solo convierte en tarea automatizable los hallazgos repetidos y claramente acotados. En resumen, la auto-mejora funciona donde hay datos estructurados y objetivos de validación claros, no como una caja negra que decide por su cuenta.

Qué deberíamos pedirle a OpenAI y Thrive antes de adoptar esto aquí

Apoyamos evaluaciones abiertas, métricas públicas, documentación en español y gobernanza con revisión humana en despliegues que toquen datos sensibles. En la práctica pedimos: 1) métricas reproducibles y públicas sobre precisión, recall y drift, con acceso a benchmarks y conjuntos de evals; 2) documentación técnica y de producto en español para que equipos latinoamericanos auditen decisiones de mapeo y extracción; 3) procesos de gobernanza que exijan revisión humana en casos ambiguos y rutas claras de responsabilidad; y 4) controles de privacidad y segregación de datos en producción, porque el piloto se hizo dentro de una estructura integrada de holdings que facilita acceso a datos (OpenAI News, 27/5/2026). Sin estas condiciones, el ahorro operativo puede transformarse en riesgo legal y reputacional.

En definitiva, Tax AI muestra que el bucle entre practicante, traza y agente puede acelerar mejoras reales en semanas. Nosotros vemos potencial, pero también exigimos transparencia, métricas verificables y gobernanza humana antes de que herramientas así entren al mercado argentino.

¿De qué se trata y cómo funciona?

¿Cómo impacta esto en el mercado argentino?

¿Es realmente “auto-mejorable”? Qué mide y qué no

Qué deberíamos pedirle a OpenAI y Thrive antes de adoptar esto aquí

Segui leyendo

Hugging Face describe datos sintéticos 'task‑seeded' que mejoran Nemotron en 100B tokens

Qué es Gemini Spark, qué puede hacer y quién podrá usarlo

Apple relanza Siri con Gemini: segunda oportunidad y muchas dudas