MedQA en ROCm: fine‑tuning clínico en AMD sin CUDA

Este proyecto demuestra de forma concreta que se puede fine‑tunear un modelo de preguntas médicas en hardware AMD sin depender de CUDA: Qwen3‑1.7B se adaptó con LoRA en un AMD Instinct MI300X de 192 GB HBM3 y entrenó sobre 2.000 ejemplos en aproximadamente 5 minutos (según Hugging Face, 8/5/2026). Si llegaste hasta acá, ya tenés la idea central: ROCm ya no es sólo un experimento, y la técnica de adapters hace el ajuste rápido y liviano.

¿Qué hizo el proyecto?

Vemos un pipeline completo y reproducible: cargaron Qwen3‑1.7B (1.7 mil millones de parámetros) y aplicaron LoRA para actualizar sólo unos 2.228.224 parámetros entrenables, es decir ~0.1443% del total (según Hugging Face, 8/5/2026). Usaron el dataset MedMCQA pero sólo una porción pequeña de 2.000 muestras, y el entrenamiento tomó ~5 minutos en el MI300X con fp16 (según Hugging Face, 8/5/2026). No hicieron cambios en el código de Transformers; bastaron tres variables de entorno para que el mismo script corriera en ROCm. La salida incluye la letra correcta y una explicación clínica, lo que agrega trazabilidad para el usuario final. En la práctica, el adapter ocupa pocos megabytes, lo que facilita distribución y pruebas locales sin mover checkpoints de varios GB.

¿Cómo impacta esto en el mercado argentino?

Vemos dos efectos relevantes para equipos y empresas en Argentina: menor dependencia técnica de NVIDIA y menor costo operativo para experimentar con modelos clínicos. La ventaja hardware es concreta: MI300X cuenta con 192 GB de HBM3, que evita la necesidad de cuantización agresiva y los hacks de 4 bits (según Hugging Face, 8/5/2026). El experimento usó 2.000 preguntas frente al corpus completo de MedMCQA de ~180.000 preguntas mencionado como paso siguiente; 2.000 representan aproximadamente 1.11% del total, lo que explica la velocidad del ensayo (según Hugging Face, 8/5/2026). Eso abre la puerta a proveedores de cómputo en la nube o a laboratorios universitarios que puedan rentar nodo por hora, pero no elimina la barrera de acceso al hardware físico ni los costos de operación. Si no tenés acceso a MI300X, la demo en Hugging Face Spaces permite probar en CPU sin invertir en infraestructura (según Hugging Face, 8/5/2026).

¿Debería usarlo un equipo médico?

Vemos que el potencial es grande, pero no es suficiente para uso clínico directo. La referencia de precisión en MedMCQA que reportan como baseline es ~45%, y el modelo fine‑tuneado requiere evaluación robusta en conjuntos retenidos y tests de seguridad antes de cualquier uso en decisiones clínicas (según Hugging Face, 8/5/2026). Es positivo que el modelo entregue explicación además de la respuesta, porque facilita auditoría humana y revisión. Recomendamos tres pasos antes de adopción: 1) benchmarking en un conjunto independiente y reporting de sensibilidad/especificidad, 2) calibración de confianza y umbrales para intervención humana, y 3) mecanismos de reversibilidad y logging para auditar decisiones. Esto coincide con nuestra postura sobre IA: automatización para ahorrar tiempo, con reversibilidad, transparencia y controles humanos.

Limitaciones y próximos pasos

Vemos limitaciones técnicas claras: el experimento es modal y pequeño, por lo que el riesgo de sobreajuste existe. Escalar linealmente llevaría más tiempo: si 2.000 muestras tardaron ~5 minutos, entrenar con 180.000 implicaría, en una estimación simple y lineal, cerca de 450 minutos o ~7.5 horas de cómputo en la misma máquina, sin contar optimizaciones ni paralelismo (cálculo propio con datos de Hugging Face, 8/5/2026). También hubo problemas prácticos resueltos en la nota: inestabilidad con bfloat16 que se solucionó usando fp16, y la falta de soporte de bitsandbytes en ROCm que obligó a evitar cuantización (según Hugging Face, 8/5/2026). Los próximos pasos técnicos recomendados son entrenar en el corpus completo, añadir calibración de confianza, integrar RAG para anclar respuestas a literatura revisada y someter el sistema a un harness de evaluación con holdouts y métricas públicas. Si querés replicarlo, la guía incluye comandos y el adapter está disponible en Hugging Face Hub, pero insistimos: en medicina, la prueba externa y la gobernanza importan tanto como la velocidad del experimento.

¿Qué hizo el proyecto?

¿Cómo impacta esto en el mercado argentino?

¿Debería usarlo un equipo médico?

Limitaciones y próximos pasos

Segui leyendo

Hugging Face describe datos sintéticos 'task‑seeded' que mejoran Nemotron en 100B tokens

Qué es Gemini Spark, qué puede hacer y quién podrá usarlo

Apple relanza Siri con Gemini: segunda oportunidad y muchas dudas