OpenAI publica MRC: un protocolo para hacer más fiables las redes de entrenamiento masivo

OpenAI publicó MRC, un protocolo de red que mezcla “spraying” de paquetes, segment routing (SRv6) y mecanismos de retirada de rutas para mantener en marcha entrenamientos síncronos incluso cuando hay fallas; según OpenAI, la especificación fue liberada el 5/5/2026 a través del Open Compute Project y ya se usa en despliegues con más de 131.000 GPUs en arquitectura de dos niveles (OpenAI News, 5/5/2026).

¿Qué es MRC y por qué importa?

MRC (Multipath Reliable Connection) extiende RoCE y propone dividir interfaces de 800Gb/s en ocho enlaces de 100Gb/s por plano, creando múltiples planos paralelos para aumentar la diversidad de caminos y bajar consumo y costos de switches (OpenAI News, 5/5/2026). En vez de forzar un solo camino por flujo, MRC “sprayea” paquetes por cientos de rutas y marca la dirección final en cada paquete, de forma que el destino puede ensamblar datos fuera de orden. Esto reduce congestión y convierte pérdidas en eventos manejables: si un camino falla, MRC lo deja de usar y retransmite lo necesario. OpenAI reporta además que este enfoque reduce la estabilización de fallas de segundos o decenas de segundos a escalas de microsegundos en sus pruebas (OpenAI News). La consecuencia práctica es que trabajos síncronos que antes se detenían por un flap de enlace ahora siguen avanzando con impacto mínimo.

¿Le cambia algo esto a Argentina?

En lo inmediato, MRC es una noticia de infraestructura: mejora cómo las grandes nubes y equipos de investigación usan miles de GPUs. No es un producto para pymes ni para usuarios finales; es una especificación de red que impulsa eficiencia en el backbone de entrenamiento. Sin embargo, tiene efectos indirectos en la región. Si proveedores de nube que operan en LatAm adoptan MRC, la disponibilidad y precio de instancias con gran ancho de banda podrían mejorar. OpenAI menciona despliegues con Microsoft y Oracle (Fairwater, OCI), lo que sugiere que proveedores globales contemplan la interoperabilidad (OpenAI News, 5/5/2026). Más capacidad eficiente suele traducirse en menor costo por hora de GPU y en mayor velocidad para desarrollar modelos localizados en español —una oportunidad para startups y labs en Argentina— siempre que esos proveedores publiquen métricas de uso y latencia aplicables a la región.

Riesgos, transparencia y qué pedimos

Vemos con buenos ojos la colaboración entre fabricantes (AMD, Broadcom, Intel, NVIDIA) y hyperscalers, pero no alcanza con un anuncio técnico. OpenAI dice que más de 900 millones de personas usan ChatGPT semanalmente, y que MRC ayudó en entrenamientos de modelos para ChatGPT y Codex (OpenAI News, 5/5/2026). Esa escala convierte estas redes en infraestructura crítica. Por eso exigimos tres condiciones antes de adoptar MRC a gran escala en entornos regulados o públicos: métricas públicas y reproducibles sobre latencia, tasa de retransmisión y ahorro energético; documentación y guías operativas en español; y marcos de gobernanza que incluyan revisión humana y auditorías externas. Además pedimos que las especificaciones liberadas en OCP vengan acompañadas de benchmarks independientes y casos de prueba en condiciones reales, no solo en cluster propios.

Conclusión práctica

MRC es una mejora ingenieril relevante para entrenar modelos a escala. Permite diseñar clusters con menos niveles de switch y más resiliencia —según OpenAI, pasar de tres o cuatro niveles a dos para ~131.000 GPUs— y reducir la ventana en que un fallo detiene un job. No obstante, la promesa técnica debe traducirse en transparencia: sin métricas públicas, documentación en español y gobernanza con revisión humana, la tecnología seguirá siendo útil para quienes controlan la infraestructura, pero menos útil para la comunidad científica y la economía regional.

¿Qué es MRC y por qué importa?

¿Le cambia algo esto a Argentina?

Riesgos, transparencia y qué pedimos

Conclusión práctica

Segui leyendo

Hugging Face describe datos sintéticos 'task‑seeded' que mejoran Nemotron en 100B tokens

Qué es Gemini Spark, qué puede hacer y quién podrá usarlo

Apple relanza Siri con Gemini: segunda oportunidad y muchas dudas