El dato central es concreto: un iPhone 17 Pro con 12 GB de memoria unificada logró ejecutar localmente una versión completa del modelo Qwen 3.5 de ~397.000 millones de parámetros, gracias a un motor de inferencia llamado Flash‑MoE publicado como código abierto (según el repositorio Flash‑MoE en GitHub, 28/3/2026). La ejecución existe y es reproducible en laboratorio, pero la velocidad y la experiencia de uso quedan lejos de la nube: en la prueba del desarrollador Anemll la inferencia iba a 0,6 tokens por segundo y después a 1,1 tokens/s tras bajar expertos (según el informe del 28/3/2026).
Qué pasó
Un desarrollador llamado Daniel Woods publicó Flash‑MoE y mostró que podía ejecutar Qwen 3.5 397B en un MacBook Pro con 48 GB de RAM y un modelo almacenado en disco de unos 209 GB (según el repositorio Flash‑MoE en GitHub, 28/3/2026). Otros contribuyentes han extendido la técnica a modelos aún mayores —se reportan intentos con DeepSeek‑V3 de 671B y Kimi K2.5 de ~1.026B—, siempre con velocidades muy bajas pero funcionales (según pruebas públicas recopiladas 28/3/2026). El truco técnico consiste en usar el SSD como sustituto parcial de la memoria de vídeo para almacenar parámetros y activaciones, una idea que hace tres años había sido anticipada por el estudio “LLM in a flash” de investigadores de Apple (publicado hace tres años, según la nota del 28/3/2026). En la práctica, la exigencia se traslada del tamaño de la VRAM a la velocidad del almacenamiento.
¿Qué significa para la privacidad y la experiencia de uso?
La ventaja clara es que ejecutar un modelo grande en local evita enviar datos a servidores de terceros: la conversación queda en el dispositivo, lo que mejora la privacidad por diseño (según la nota del 28/3/2026). Pero hay dos límites prácticos inmediatos. Primero, la usabilidad: 0,6 tokens/s (mejorados a 1,1 tokens/s con sacrificio de calidad del 2,5%) no es aceptable para la mayoría de aplicaciones interactivas (según las pruebas de Anemll, 28/3/2026). Segundo, el coste en latencia y energía: usar el SSD como “memoria” penaliza velocidad, y sólo SSDs muy rápidos (la nota menciona unidades PCIe 5.0 alcanzando ~15 GB/s) permiten hacerlo con cierta fluidez (según la nota del 28/3/2026). En resumen, la privacidad local es real, pero hoy con límites: experiencia lenta o pérdida de calidad, o más hardware y consumo.
¿Cómo impacta esto en el mercado argentino?
En términos de acceso, la promesa es doble: por un lado permite que usuarios con hardware “modesto” accedan a modelos grandes sin invertir en centros de datos; por otro, depender de SSDs PCIe 5.0 y de unidades rápidas restringe el beneficio a quien pueda costear buena infraestructura (la nota cita que un Mac Studio M3 Ultra con 512 GB supera los €10.000 como referencia de lo caro que puede ser el extremo de rendimiento, según la nota del 28/3/2026). Para Argentina eso implica que la opción local será interesante para investigadores, empresas y entusiastas con recursos, pero menos transformadora aun para la mayoría de usuarios. Además, la disponibilidad de hardware moderno y repuestos es más limitada aquí, y el soporte en español y las métricas públicas son condiciones necesarias para evaluar adopciones a escala local. Vemos una oportunidad para que soluciones open source bajen la barrera, pero pedimos documentacion en español y métricas verificables antes de impulsar su uso masivo.
Qué pedimos y hacia dónde mirar
Apoyamos que la comunidad open source demuestre que la computación local puede escalar gracias a técnicas como Flash‑MoE; la competencia y la diversidad de implementaciones fortalecen el ecosistema. Al mismo tiempo exigimos tres cosas concretas: (1) métricas públicas y reproducibles de latencia, consumo energético y calidad de respuestas (con benchmarks claros); (2) documentación en español y guías de seguridad para usuarios y empresas en LATAM; y (3) gobernanza con revisión humana de usos sensibles antes de promover despliegues masivos. Si estas condiciones se cumplen, el avance puede mejorar la privacidad y la autonomía tecnológica sin sacrificar responsabilidad.
En definitiva, la demostración técnica es notable y abre una vía real hacia IA local más potente, pero hoy es un triunfo de laboratorio más que una solución lista para el usuario cotidiano. La nube seguirá siendo la opción principal por velocidad y coste, mientras que lo local irá ganando terreno con mejoras en SSDs, optimizaciones y, sobre todo, transparencia y documentación útil para el público hispanohablante.