Granite 4.0 3B Vision: un VLM compacto para entender tablas y gráficos en documentos

Granite 4.0 3B Vision es un modelo multimodal de aproximadamente 3.000 millones de parámetros diseñado para extraer tablas, entender gráficos y sacar pares clave‑valor de documentos, y según el blog de Hugging Face (31/3/2026) alcanza 86.4% en Chart2Summary y 92.1 TEDS en PubTablesV2 cropped.

Vemos en esa frase la combinación de tres decisiones prácticas: compactar la arquitectura para facilitar despliegues empresariales, enfocarse en tareas documentales concretas (tablas, gráficos, KVP) y publicar el artefacto como un adaptador LoRA sobre Granite 4.0 Micro. Hugging Face también explica que el modelo fue entrenado con ChartNet, una base sintética de 1.7 millones de muestras y 24 tipos de gráficos, y que utiliza una arquitectura llamada DeepStack para inyectar características visuales en distintos niveles. Esa claridad técnica es bienvenida porque entrega números concretos que empresas y equipos de producto pueden evaluar, pero esos números son el punto de partida, no la última palabra (fuente: blog Hugging Face, 31/3/2026).

¿Cómo impacta esto en el mercado argentino?

Para equipos en Argentina y la región, la novedad relevante es la combinación de tamaño compacto y licencia permisiva: un modelo de ~3B suele ser más desplegable en infraestructuras locales que alternativas de 9–70B, y la publicación bajo Apache 2.0 en Hugging Face facilita pruebas y personalizaciones (según el anuncio de Hugging Face, 31/3/2026). Eso puede reducir barreras de entrada para pymes, despachos contables y fintechs que procesan facturas, reportes financieros y formularios gubernamentales.

Sin embargo, queda una pregunta clave: ¿cómo rinde en español y en documentos escaneados con baja calidad? El reporte presenta métricas fuertes en benchmarks como PubTablesV2 y TableVQA, pero esos conjuntos no necesariamente reflejan formularios en castellano ni diversidad regional. Por eso recomendamos a equipos locales realizar pruebas propias y exigir documentación en español y métricas de robustez en condiciones reales antes de poner el modelo en producción.

¿Es realmente “open source” y qué implica para las empresas?

El modelo se distribuye como LoRA sobre Granite 4.0 Micro y Hugging Face lo publica bajo Apache 2.0, lo que en la práctica permite uso comercial, adaptación y despliegue sin pagos de licencia, según el blog oficial (31/3/2026). Eso es consistente con nuestra posición a favor del open source: facilita auditoría, reproducibilidad y control local.

Aun así, el detalle operativo importa: un adaptador LoRA depende de un checkpoint base y del pipeline de inferencia; las empresas deben verificar que la cadena completa (base + LoRA + herramientas como Docling) tenga garantías de licencia y desempeño. Además exigimos transparencia adicional: métricas de latencia, costos de inferencia por documento, y documentación en español para integradores latinoamericanos. Publicar el código y la licencia es un primer paso necesario, pero no suficiente para una adopción responsable a gran escala.

Limitaciones, riesgos y preguntas pendientes

El paper/entrada de blog reconoce el uso de “LLM‑as‑a‑judge” para evaluar ChartNet y otras tareas, una metodología que puede introducir sesgos y sobreestimar la capacidad real en escenarios ruidosos (fuente: Hugging Face, 31/3/2026). Además quedan incógnitas prácticas: rendimiento en documentos multilingües con tipografías no latinas, robustez ante escaneos de baja resolución, y comportamiento en formularios con campos manuscritos.

Por eso planteamos tres exigencias antes de adopción masiva: métricas públicas y reproducibles (incluyendo latencia y costo por página), documentación en español y despliegues de prueba con revisión humana en lazo cerrado. Apoyamos la disponibilidad de Granite 4.0 3B Vision como recurso open source, pero insistimos en gobernanza responsable y evidencia pública antes de integrarlo en procesos críticos como automatización de trámites o análisis financiero.

¿Cómo impacta esto en el mercado argentino?

¿Es realmente “open source” y qué implica para las empresas?

Limitaciones, riesgos y preguntas pendientes

Segui leyendo

Tensión en Google: DeepMind usa Claude y rompe la unidad interna de IA

Tesla reconoce que 4 millones de coches no alcanzan FSD no supervisado

Tim Cook se va: John Ternus asume y empieza otra era en Apple