Hugging Face publicó el 25/5/2026 un glosario de términos sobre agentes que enumera 15 entradas y ejemplifica la diferencia entre “scaffold” y “harness”; la nota busca poner orden en vocabulario que venía siendo ambiguo (según el blog de Hugging Face, 25/5/2026). Esta aclaración no es solo semántica: impacta cómo se evalúan, despliegan y regulan los agentes en producto.
¿Qué propone el glosario y por qué importa?
El texto explica que el “modelo” es la LLM que genera texto, el “scaffold” es la capa que define instrucciones, herramientas y memoria, y el “harness” es la capa de ejecución que llama al modelo y a los tools. Hugging Face lista 15 términos centrales y ejemplifica con cinco productos concretos como Claude Code, Codex, Antigravity CLI, Hermes Agent y Cursor (según el blog de Hugging Face, 25/5/2026). Esta separación importa porque permite discutir evaluación y seguridad en dos planos distintos: lo que el modelo aprendió y cómo el sistema lo convierte en acciones.
La claridad terminológica facilita reproducibilidad. Si decimos que falló un “agent”, hay que saber si fue el modelo, el harness o el scaffold; cada uno tiene soluciones técnicas distintas y métricas diferentes.
¿Cómo impacta esto en el mercado argentino?
Para equipos locales —startups, pymes y equipos de producto— la guía es útil porque traduce jerga y ayuda a diseñar pipelines replicables. En la práctica, entender la diferencia acelera integraciones: un scaffold bien diseñado reduce la necesidad de retrainings costosos y un harness robusto limita errores operativos. Esto es relevante desde el punto de vista de costos y cumplimiento: desde 2022, la arquitectura de agentes se convirtió en el modo dominante de ofrecer automatizaciones más allá de chat (recordamos que ChatGPT se lanzó el 30/11/2022, según el blog de OpenAI), y la conversación técnica ya no es solo de investigación.
Para empresas argentinas que integran APIs de terceros, la recomendación práctica es exigir documentación del scaffold y del harness. Eso incluye ejemplos de context engineering y las especificaciones de herramientas externas que el harness invoca, para auditar comportamiento y responsabilizar proveedores.
¿Qué deberían pedir desarrolladores y empresas?
Primero: métricas reproducibles del comportamiento del agente en escenarios reales y de edge cases. Segundo: artefactos del scaffold —prompts, esquemas de contexto, políticas de memoria— y ejemplos ejecutables del harness para que terceros puedan evaluar. Tercero: documentación en español y contratos que especifiquen límites de acción del agent. El glosario destaca además cuatro secciones específicas de entrenamiento —RL Environment, Trainer, Rollout, Reward— que ayudan a separar lo que pasa en producción de lo que se hace durante el ajuste de pesos (según el blog de Hugging Face, 25/5/2026).
Pedir estos elementos no es burocracia: es práctica de ingeniería. Con ellos, un equipo puede replicar un fallo, medir mitigaciones y comparar proveedores con criterios objetivos.
¿Qué le pedimos a empresas y reguladores?
Desde la redacción apoyamos evaluaciones abiertas de agentes que publiquen métricas públicas, documentación en español y gobernanza con revisión humana (posición sostenida el 2026-05-23). En ese marco, sugerimos tres mínimos: 1) publicabilidad de un eval harness con casos de prueba, 2) reporte público de al menos las métricas de corrección y seguridad usadas en evaluación y 3) exigencia de documentación operativa en español para despliegues en la región. Además, los organismos regulatorios deberían exigir que los proveedores detallen qué parte del comportamiento es del modelo y qué parte es del harness o scaffold, para atribuir responsabilidad técnica y legal.
En resumen, el glosario de Hugging Face (25/5/2026) es un paso práctico para ordenar una discusión que ya no es solo académica. Lo siguiente es traducir esos términos en métricas, documentación y procesos de gobernanza que permitan desplegar agentes con responsabilidad y trazabilidad.