¿Diagnóstico mediante Inteligencia Artificial? Cuidado, una de cada dos respuestas no es fiable, revela un estudio - Consejos

El chatbots Los basados en Inteligencia Artificial no son herramientas útiles para proporcionar diagnósticos o consejos médicos. Un estudio dirigido porCentro Médico Harbor-UCLA (EE.UU.) ha demostrado que en uno de cada dos casos la respuesta proporcionada es completamente poco fiable y engañosa. ¡Atención!

Como explican los investigadores, el chatbots Las tecnologías basadas en IA se han adoptado rápidamente en diversos campos, incluidos la investigación, la educación, los negocios, el marketing y la medicina. Sin embargo, la mayoría de las interacciones provienen de usuarios no expertos que los utilizan como buscadores, incluso para preguntas cotidianas sobre salud y medicina.

El caso ‘Bixonimanía’

Recientemente unos científicos inventaron una enfermedad, a la que llamaron ‘Bixonimania’, publicando además dos preprints sobre esta, el primero el 26 de abril de 2024, el segundo el 6 de mayo de 2024. Aunque hoy ambos están retirados del servidor con fecha 10 de abril de 2026 y en uno de los casos aparece claramente la fórmula que habla de contenidos “fabricado y no auténtico” y carente de validez científica, en abril de 2024 Copiloto, Géminis, Perplejidad y ChatGPT trataron la bixonimanía como una enfermedad real, la relacionaron con la luz azul de las pantallas, describieron los síntomas y en algunos casos incluso sugirieron la visita a un especialista. Perplejidad incluso llegó a proporcionar una prevalencia estimada, hablando de una persona entre 90.000.

Pero la cosa no acaba aquí: la bixonimanía también acabó en un artículo publicado en Cureusque la citó como una forma emergente de melanosis periorbitaria relacionada con la luz azul. Hoy esa página lleva la marca de la retractación, y Naturaleza Reconstruyó que el periódico se retractó del artículo el 30 de marzo de 2026 luego de ser contactado para hacer comentarios. La falsificación, por tanto, pasó por más de un filtro: primero la web, luego los chatbots y luego una publicación científica real.

Cómo se realizó el estudio

Los científicos, en particular, llevaron a cabo el estudio analizando las respuestas de los chatbots en los sectores médico y de la salud, sectores particularmente sujetos a desinformación. Las herramientas cubiertas por el trabajo incluyen Géminis (Google), búsqueda profunda (Alto vuelo), Meta IA (Medio), ChatGPT (Abierto AI) Y Grok (xAI), y en febrero de 2025, a cada chatbot se le hicieron 10 preguntas en cinco categorías, a saber, cáncer, vacunas, células madre, nutrición y rendimiento deportivo.

Utilizamos un enfoque contradictorio (Aprendizaje automático adversario) con preguntas abiertas y cerradas, diseñadas para presionar a los modelos para que proporcionen información incorrecta o consejos contraindicados – escriben los autores – Dos expertos de cada categoría calificaron las respuestas como “no problemáticas”, “algo problemáticas” o “altamente problemáticas” utilizando una matriz de codificación basada en criterios objetivos y predefinidos. Se evaluaron las citas para determinar su precisión e integridad, y a cada respuesta se le asignó una puntuación de legibilidad de Flesch (que mide la complejidad de un texto en una escala de 0 a 100, donde los valores más altos indican una mayor facilidad de lectura, Ed.)

EL’Aprendizaje automático adversario es un campo de la ciberseguridad y de la propia IA en particular centrado en la creación intencional de entradas manipuladas (ejemplos contradictorios) para engañar a los modelos de IA para que cometan errores engañándolos. Pero el objetivo principal es probar su robustez. Es por esto que se eligió como método para realizar este tipo de estudio.

Los resultados

Los resultados mostraron que casi la mitad (49,6%) de las respuestas fueron problemáticas (30% algo problemáticas y 19,6% muy problemáticas). La calidad de las respuestas en general no mostró diferencias significativas entre los chatbots (p=0,566), pero Grok generó respuestas significativamente más problemáticas de lo que se esperaría de una distribución aleatoria (puntuación z +2,07, p=0,038).

El rendimiento fue mejor en las áreas de vacunas (puntuación z promedio -2,57) y cáncer (-2,12), y peor en células madre (+1,25), rendimiento deportivo (+3,74) y nutrición (+4,35).

De un total de 250 preguntas, solo hubo dos respuestas negativas (0,8%), ambas de Meta AI, pero la calidad de las fuentes bibliográficas fue pobre, con una puntuación de completitud promedio del 40% (Q1-Q3: 20-67%). Esto se debe a que las alucinaciones y citas inventadas por los chatbots han impedido que cualquier chatbot produzca una lista de referencias completamente precisa.

Los chatbots analizados mostraron un rendimiento deficiente a la hora de responder preguntas en campos médicos y sanitarios propensos a la desinformación. Su implementación continua sin información pública y supervisión adecuadas corre el riesgo de amplificar la información errónea.

los investigadores concluyen

En temas muy delicados como son las cuestiones médico-sanitarias siempre debemos recurrir a expertos.

El trabajo fue publicado el Abierto BMJ.

Fuente: Abierto BMJ