Las IA médicas creen en el ajo rectal: 46% de falsedades aceptadas con jerga clínica

Un estudio cuantitativo en The Lancet encontró que los modelos de lenguaje repiten falsedades médicas —como el mito del ajo rectal— en 46% de las ocasiones cuando el contenido está presentado en tono clínico, aunque rechazan el mismo bulo si se redacta en lenguaje coloquial (The Lancet, 2026). Este número no es una anécdota: el trabajo usó más de 1.000.000 de prompts y probó 20 modelos diferentes, lo que convierte el hallazgo en un problema de modelo y no de un solo proveedor (The Lancet, 2026). Además, Nature publicó en febrero de 2026 una investigación complementaria que produjo resultados coincidentes, reafirmando la consistencia de la falla (Nature, feb 2026).

¿Qué nos está diciendo el 46% y por qué importa para pymes?

Vemos tres implicancias prácticas de ese 46%. Primero, la tasa indica que casi una de cada dos respuestas puede ser engañosa si el engaño se disfraza con jerga técnica; eso tiene riesgo reputacional directo para pequeñas clínicas, farmacias y servicios de salud que deleguen respuestas sin control (The Lancet, 2026). Segundo, la escala del experimento —más de 1 millón de prompts y 20 modelos— sugiere que no se trata de una versión mala del software, sino de un sesgo generalizado en cómo estos modelos priorizan el estilo sobre la evidencia (The Lancet, 2026). Tercero, el consumidor promedio no distingue entre tono y veracidad: un cliente que recibe un consejo falso en tono médico puede actuar en consecuencia y generar daño, que luego vuelve a la pyme en forma de quejas, demandas o pérdida de confianza.

¿Es peor que buscar en Google? ¿Qué dicen los estudios comparativos?

Los autores advierten que, en muchos casos, el output de los chatbots no supera a una búsqueda estándar en Google para decisiones de salud y, en ocasiones, complica más que ayuda por mezclar información verosímil con falsedades (Nature, feb 2026). La comparación temporal entre los estudios muestra repetibilidad: Nature en febrero de 2026 obtuvo resultados similares a los publicados en The Lancet en marzo de 2026, lo que indica que el problema persiste a través de versiones y proveedores (Nature, feb 2026; The Lancet, 2026). Para una pyme esto implica que automatizar respuestas médicas sin filtros humanos puede reducir costes en atención, pero aumenta el riesgo de error y responsabilidad. Si la intención es ahorrar plata, hay que calcular el ROI neto: ahorro en horas versus coste potencial de rectificación y reputación.

¿Qué medidas prácticas deben tomar las pymes y quién tiene la responsabilidad?

Primero, no delegar decisiones clínicas a un chatbot sin supervisión humana. Segundo, exigir a proveedores pruebas independientes y resultados auditables: queremos métricas públicas de precisión en temas críticos y pruebas con corpus clínicos reales (posición editorial consistente con demandas previas de transparencia en IA). Tercero, instrumentar cadenas de verificación: cada respuesta generada por IA que contenga consejo de salud debe incluir advertencia y fuente verificable, y permitir escalado humano inmediato. Finalmente, las pymes deben exigir al proveedor acceso a registros de prompts y tasas de error: si un modelo acepta falsedades en 46% de los casos (The Lancet, 2026), el proveedor debe explicar cómo reduce ese número y con qué coste. Sin pruebas independientes y auditorías no hay base para normalizar estas herramientas en atención al público.

Cierre: lo que pedimos y por qué

La IA promete bajar costos y automatizar atención, pero estos estudios muestran que hoy prioriza forma sobre veracidad en temas críticos. Pedimos transparencia en datos (tasas de error por dominio), pruebas independientes y auditorías antes de que pymes y servicios de salud integren chatbots como primera línea. Mientras tanto, la decisión responsable es usar IA como asistente para personal capacitado, no como sustituto de criterio clínico. Exigir pruebas y auditorías no es frenar la innovación; es calcular bien el riesgo antes de perder clientes y reputación por una respuesta convincente pero peligrosa.

¿Qué nos está diciendo el 46% y por qué importa para pymes?

¿Es peor que buscar en Google? ¿Qué dicen los estudios comparativos?

¿Qué medidas prácticas deben tomar las pymes y quién tiene la responsabilidad?

Cierre: lo que pedimos y por qué

Segui leyendo

Tensión en Google: DeepMind usa Claude y rompe la unidad interna de IA

Tesla reconoce que 4 millones de coches no alcanzan FSD no supervisado

Tim Cook se va: John Ternus asume y empieza otra era en Apple