Mellum2 es un modelo Mixture‑of‑Experts de 12.000 millones de parámetros lanzado por JetBrains y liberado en Hugging Face el 1/6/2026. Según el anuncio oficial, el modelo activa 2.5B parámetros por token y está licenciado bajo Apache 2.0, con un reporte técnico publicado en arXiv que detalla arquitectura y benchmarks. En una frase: es un modelo abierto y focalizado en texto y código pensado para reemplazar llamadas frecuentes a modelos grandes en pipelines de producción.

¿Qué es Mellum2 y por qué importa?

Mellum2 apuesta por la arquitectura Mixture‑of‑Experts (MoE) para combinar gran capacidad con activación parcial de parámetros: 12B parámetros totales pero solo 2.5B activos por token, según el blog de Hugging Face (1/6/2026). Esa estructura reduce costos y latencia en tareas que no requieren toda la «fuerza» del modelo, por eso JetBrains lo posiciona para routing, RAG, resúmenes y subtareas de agentes. El reporte técnico en arXiv (2605.31268) sostiene que Mellum2 ofrece más de 2x velocidad de inferencia frente a modelos de tamaño similar en sus pruebas, lo que lo hace atractivo para features de alta frecuencia como completado de código.

La importancia práctica es clara: en lugar de invocar un modelo frontier cada vez, un sistema puede delegar operaciones rápidas y recurrentes a Mellum2, ahorrando costos de serving y reduciendo latencias.

¿Cómo impacta esto en el mercado argentino?

Para empresas y equipos de desarrollo en Argentina, Mellum2 abre la posibilidad de desplegar internamente un modelo eficiente bajo licencia Apache 2.0, lo que facilita cumplir requisitos de privacidad y soberanía sobre el código. El hecho de que active 2.5B parámetros por token significa, según el anuncio, menores exigencias de hardware por consulta, y el mayor rendimiento (más de 2x) puede traducirse en menor costo por request en operaciones constantes, como autocompletado en IDEs o pipelines RAG. Sin embargo, la adopción local dependerá de disponibilidad de infraestructura: muchas empresas en la región siguen sin acceso fácil a GPUs modernas y a costos competitivos.

Además, exigimos documentación en español y métricas públicas más detalladas antes de adopciones comerciales a escala, en línea con nuestra postura previa de transparencia: sin manuales claros y benchmarks replicables, es difícil validar afirmaciones de rendimiento en castellano y en cargas reales de LATAM.

¿Es una alternativa real a los grandes modelos monolíticos?

No se trata de reemplazar a los modelos «frontier» sino de complementar la pila. JetBrains lo define como un “focal model” para tareas de alta frecuencia; en la práctica, Mellum2 puede encargarse de routing, validación y compresión de contexto, mientras que un modelo mayor se reserva para razonamiento intensivo. Las cifras —12B parámetros totales y más de 2x en latencia respecto a pares comparables, según el reporte técnico— respaldan su rol como componente eficiente en stacks multi‑modelo.

Aun así, hay límites: la especialización en texto y código implica que no es una solución multimodal, y la efectividad en español y en dialectos locales dependerá de los datos de entrenamiento y de evaluaciones independientes. Por eso apoyamos la disponibilidad open source, pero insistimos en exigir métricas públicas, documentación en español y gobernanza con revisión humana antes de despliegues comerciales, para que su uso en empresas argentinas sea responsable, verificable y controlable.