Google DeepMind presentó un marco para medir el progreso hacia la AGI y abrió un hackathon en Kaggle con un premio total de US$200.000, según su comunicado del 17/3/2026. En pocas palabras: proponen una taxonomía cognitiva de 10 capacidades y un protocolo de evaluación en tres etapas para situar modelos frente a la distribución de rendimiento humano (según Google DeepMind, 17/3/2026). Vemos utilidad técnica: poner criterios comunes ayuda a comparar sistemas. Pero también hay riesgos si esos criterios se usan sin transparencia, documentación en español y controles sobre los datos de entrenamiento y evaluación.

¿Qué propone el marco y cómo funciona?

DeepMind identifica 10 capacidades cognitivas —percepción, generación, atención, aprendizaje, memoria, razonamiento, metacognición, funciones ejecutivas, resolución de problemas y cognición social— que, según ellos, son relevantes para medir la generalidad de un sistema (según Google DeepMind, 17/3/2026). Proponen un protocolo en tres etapas: 1) evaluar modelos en un conjunto amplio de tareas con test sets protegidos; 2) recolectar baselines humanos representativos; 3) mapear el rendimiento del modelo respecto de la distribución humana. El énfasis en baselines humanos es importante porque el objetivo es comparar con capacidades humanas promedio, no con un único benchmark. La propuesta formaliza lo que hasta ahora eran benchmarks fragmentados: mientras que mapas como GLUE, lanzado en 2018, midieron sobretodo tareas de lenguaje (Wang et al., 2018), DeepMind apuesta por una taxonomía cognitiva más amplia (según Google DeepMind, 17/3/2026). Esto cambia el foco de evaluación de habilidades aisladas a perfiles cognitivos compuestos.

¿Qué busca el hackathon y qué plazos tiene?

Para traducir la teoría en pruebas prácticas, DeepMind y Kaggle lanzaron el hackathon “Measuring progress toward AGI: Cognitive abilities” con cinco tracks prioritarios: aprendizaje, metacognición, atención, funciones ejecutivas y cognición social (según Google DeepMind, 17/3/2026). El certamen ofrece US$200.000 en premios totales: US$10.000 para los dos primeros de cada track y US$25.000 para los cuatro mejores globales. Las inscripciones corren del 17/3 al 16/4 y los resultados se anunciaron para el 1/6 (según Google DeepMind, 17/3/2026). Además usarán la plataforma Community Benchmarks de Kaggle para testear evaluaciones contra modelos de vanguardia. Es positivo que se invite a la comunidad a diseñar tests, pero la estructura de incentivos y la gobernanza técnica —quién valida las pruebas, cómo se evita contaminación de datos y cómo se publican las métricas— determinarán si esto suma transparencia o solo genera más benchmarks cerrados.

¿Cómo impacta esto en Argentina y la región?

La iniciativa puede ser relevante para investigadores y empresas en Argentina, pero solo si viene acompañada de documentación y datos accesibles en español. El español es hablado por cerca de 489 millones de personas en el mundo según el Instituto Cervantes (2022), por lo que evaluaciones sin documentación ni baselines en nuestro idioma limitan su utilidad regional. Además, la comunidad latinoamericana necesita garantías sobre acceso: si los test y resultados quedan detrás de APIs de pago o en inglés, la adopción será desigual. También hay un riesgo de dependencia tecnológica: evaluaciones globales que definen qué es ‘general’ pueden fijar criterios que benefician a quienes controlan los grandes modelos. Por eso es clave que las pruebas incluyan diversidad demográfica y cultural en los baselines humanos, y que los resultados y datasets se publiquen con licencias que permitan replicación local (recomendación válida para reguladores y universidades locales).

Qué debemos exigir y cómo medir la responsabilidad

Valoramos el aporte técnico de DeepMind, pero como hemos señalado antes respecto de otros lanzamientos de empresas grandes, exigimos tres requisitos mínimos: métricas públicas y reproducibles, documentación en español y gobernanza clara sobre datos y revisión humana. Específicamente pedimos que la definición de las tareas, los test sets protegidos y los baselines humanos sean públicos y versionados; que haya claridad sobre si los modelos fueron entrenados con datos que contienen los tests (control de data contamination); y que exista un comité externo para revisar las evaluaciones antes de su adopción. Sin estas condiciones, corremos el riesgo de normalizar benchmarks opacos que favorezcan a plataformas cerradas. La propuesta de DeepMind abre la puerta a una evaluación más rica, pero la comunidad y los gobiernos deben empujar por transparencia y acceso en español antes de usar estos criterios como standard regional.