DeepSeek-V4 es un modelo público diseñado para mantener razonamiento y herramientas a escala de hasta 1.000.000 de tokens, con checkpoints Pro (1.6T total / 49B activados) y Flash (284B total / 13B activados), según el blog de Hugging Face del 24/4/2026.
¿Por qué importa el millón de tokens?
El dato central es práctico: una ventana de 1 millón de tokens solo sirve si el costo por token es utilizable en hardware real. DeepSeek afirma que V4-Pro reduce el gasto de FLOPs por token al 27% respecto a V3.2, lo que equivale a una reducción aproximada del 73% en costo computacional por token según el comunicado oficial (Hugging Face, 24/4/2026). Además, el KV cache se queda en el 10% de memoria frente a V3.2 y, comparado con una arquitectura de atención agrupada de 8 cabezas, DeepSeek V4 requiere aproximadamente 2% del tamaño de cache (fuente: blog y technical report DeepSeek_V4.pdf). Esos números no solo son marketing: implican que correr contextos muy largos deja de ser teórico y pasa a ser factible en clusters GPU existentes, siempre que se verifiquen en pruebas independientes.
¿Cómo cambia esto para los agentes?
Las novedades más relevantes para agentes no son solo la eficiencia, sino la integración iterativa con herramientas. V4 introduce interleaved thinking: conserva las trazas de razonamiento a través de rondas con tool-calls, algo que V3.2 descartaba al recibir un nuevo mensaje de usuario (según el post de Hugging Face, 24/4/2026). También incorpora un token especial |DSML| y un formato XML para tool-calls, pensado para evitar fallos de escape comunes en JSON-in-string. En benchmarks de agentes, V4-Pro-Max obtiene 67.9 en Terminal Bench 2.0, supera a varios modelos abiertos como GLM-5.1 (63.5) y K2.6 (66.7) pero queda por debajo de algunos cerrados como GPT-5.4-xHigh (75.1) — todos los datos según la tabla 6 del informe técnico. Esto sugiere que la ventaja es de integración de flujo de trabajo más que de salto absoluto en razonamiento.
¿Cómo impacta esto en el mercado argentino?
Para empresas y equipos en Argentina la promesa es doble: más contexto para historiales largos (soporte a sesiones de debugging, auditorías de conversación, analítica de documentos) y modelos accesibles en Hugging Face. DeepSeek publica cuatro checkpoints en el Hub (Pro, Flash, y sus versiones base) y recomienda modos de razonamiento que requieren ventanas mínimas (Think Max necesita al menos 384K tokens), según el post (Hugging Face, 24/4/2026). El impacto real dependerá de costos de inferencia locales: si V4 reduce FLOPs al 27% respecto a V3.2, la factura de GPU puede caer sustancialmente; pero esto hay que medirlo en instalaciones reales y en pesos. Exigimos además documentación técnica en español y métricas reproducibles para evaluar latencia, coste por token y memoria en configuraciones comunes en LATAM.
Qué falta y qué pedimos antes de adopción amplia
DeepSeek V4 es un avance arquitectural diseñado para agentes, pero la adopción responsable exige tres requisitos: métricas públicas reproducibles (latencia, FLOPs reales y memoria por batch) — el blog aporta números, pero necesitamos benchmarks independientes; documentación técnica completa en español para equipos latinoamericanos; y gobernanza operativa con revisión humana cuando se use en decisiones críticas. En cuanto a seguridad, el informe menciona entrenamiento con RL en un sandbox llamado DSec y scores de código (67% en 30 tareas internas), pero no sustituye auditorías externas. Apoyamos que haya alternativas abiertas, pero insistimos en transparencia técnica y operativa antes de integrarlo en flujos productivos que afecten a usuarios finales.
Conclusión rápida
DeepSeek-V4 apunta a resolver problemas reales de agentes con 1M de tokens y optimizaciones de atención (CSA/HCA) que reducen costos por token; los números publicados son prometedores, pero su adopción segura en la región exige métricas reproducibles, documentación en español y reglas claras de gobernanza con revisión humana.