notas Hugging Face describe datos sintéticos 'task‑seeded' que mejoran Nemotron en 100B tokens
Un pipeline que genera Q&A sintético a partir de splits de tareas públicos elevó MMLU‑Pro y GPQA en Nemotron-3 Nano, según Hugging Face (4/6/2026).
- Hugging Face usó 70 tareas (≈700 subtasks) como semillas para generar datos sintéticos, y en una continuación de 100B tokens registró mejoras en varias métricas (según Hugging Face, 4/6/2026).
- Las ganancias fueron modestas en MMLU‑Pro (+1.8) y código (+1.9) pero grandes en GPQA (+11.1); la mezcla de datos y la verificación importan para evitar sobreajuste (según el blog de Hugging Face).