Tecnología

OpenAI quiso convertir a ChatGPT en el médico de cabecera ideal. El problema es que se equivoca la mitad de las veces

Xataka Amparo Babiloni 09/03/2026 11:31 24 vistas

Artículo Completo 786 palabras

OpenAI empezó el año con un nuevo lanzamiento: el modo salud de ChatGPT. Aunque de momento no está disponible en España, sí lo está en EEUU y ya están apareciendo los primeros estudios que ponen a prueba su efectividad y no son muy buenas noticias para OpenAI. No es para tanto. Un estudio reciente publicado en la revista Nature Medicine y recogido por NBC News ha revelado que ChatGPT Health falló al clasificar la urgencia del 51,6% de los casos médicos de emergencia analizados. Los investigadores presentaron al modelo miles de escenarios clínicos y vieron que la IA tendía a infravalorar situaciones críticas, sugiriendo que el paciente visitara al médico en 24-48 horas cuando, en realidad, se trataba de emergencias que requerían una intervención rápida como cetoacidosis diabética o fallo respiratorio. Sí que clasificó correctamente otros casos como ictus o reacciones alérgicas severas. En Xataka ChatGPT está llevando a algunas personas al borde de la locura. La realidad es menos alarmista y mucho más compleja No tiene sentido. No sólo es que subestimó casos graves, también se proporcionaron casos de síntomas leves y ChatGPT Health sobrevaloró el 64,8%, instando al paciente a acudir al médico cuanto antes, por ejemplo en casos de dolor de garganta persistente. El Dr. Ashwin Ramaswamy, líder del estudio, afirmó a NBC que "no tiene sentido que se hicieran recomendaciones en unas áreas y no en otras". Ideas suicidas. Aún hay más. Entre los casos presentados se incluyeron algunos con ideaciones suicidas. Uno de estos casos era un paciente que mostraba interés en "tomar muchas pastillas". Si el paciente sólo describía sus síntomas, aparecía un banner con el número de ayuda para prevenir el suicidio. Sin embargo, cuando el paciente añadía a su consulta los resultados de una analítica, ChatGPT ya no detectaba ideaciones suicidas y no mostraba el banner. Según Ramaswamy, "Una barrera de protección contra crisis que depende de si se mencionan los resultados de laboratorio no está preparada, y podría decirse que es más peligrosa que no tener ninguna barrera". Por qué es importante. La relevancia de este hallazgo reside en que ChatGPT se ha convertido en el médico de primera línea para muchas personas. La facilidad para consultar síntomas desde el móvil está desplazando a las vías tradicionales de consulta; lo que antes googleábamos, ahora se lo preguntamos a un chatbot. Si la herramienta principal que utiliza la gente para decidir si ir o no a urgencias tiene un margen de error del 50% en casos graves, tenemos un problema. En declaraciones a The Guardian, Alex Ruani, investigadora en desinformación médica, describió estos resultados como "increíblemente peligrosos" y señala que genera una "falsa sensación de seguridad (...) Si alguien se le dice que espere 48 horas durante un ataque de asma o una crisis diabética, esa tranquilidad podría costarle la vida". OpenAI responde. Un portavoz de la compañía defendió las acusaciones asegurando que el estudio no refleja el uso habitual de ChatGPT Health, argumentando que no está diseñado para hacer diagnósticos, sino para responder preguntas de seguimiento y ayudar a los pacientes a tener más contexto. En su lanzamiento, OpenAI insistió en que la herramienta no sustituía a un médico, el problema es que una vez lanzada una herramienta así, cómo la use la gente queda fuera del control de la empresa. Adulación y alucinaciones. Los chatbots tienen un problema de adulación y tienden a dar la razón al usuario. Por otro lado está el fenómeno de las alucinaciones. Los LLM están diseñados para priorizar dar una respuesta antes que admitir que no sabe algo, y lo peor es que lo hace con tanta seguridad que nos la creemos. No es una afirmación vacía, se ha comprobado que nos sentimos más seguros usando una IA, incluso cuando las respuestas que nos da son incorrectas. Si mezclamos adulación, alucinaciones y salud, tenemos un cóctel bastante arriesgado. Imagen | OpenAI En Xataka | Hay personas culpando a ChatGPT de provocar delirios y suicidios: qué está pasando realmente con la IA y la salud mental - La noticia OpenAI quiso convertir a ChatGPT en el médico de cabecera ideal. El problema es que se equivoca la mitad de las veces fue publicada originalmente en Xataka por Amparo Babiloni .

Un estudio ha puesto a prueba el modo salud de ChatGPT y los resultados son preocupantes

5 comentarios Facebook Twitter Flipboard E-mail 2026-03-09T10:31:18Z

Amparo Babiloni

Editora Senior - Tech

Amparo Babiloni

Editora Senior - Tech Linkedin twitter instagram 472 publicaciones de Amparo Babiloni

No es para tanto. Un estudio reciente publicado en la revista Nature Medicine y recogido por NBC News ha revelado que ChatGPT Health falló al clasificar la urgencia del 51,6% de los casos médicos de emergencia analizados. Los investigadores presentaron al modelo miles de escenarios clínicos y vieron que la IA tendía a infravalorar situaciones críticas, sugiriendo que el paciente visitara al médico en 24-48 horas cuando, en realidad, se trataba de emergencias que requerían una intervención rápida como cetoacidosis diabética o fallo respiratorio. Sí que clasificó correctamente otros casos como ictus o reacciones alérgicas severas.

En Xataka ChatGPT está llevando a algunas personas al borde de la locura. La realidad es menos alarmista y mucho más compleja

No tiene sentido. No sólo es que subestimó casos graves, también se proporcionaron casos de síntomas leves y ChatGPT Health sobrevaloró el 64,8%, instando al paciente a acudir al médico cuanto antes, por ejemplo en casos de dolor de garganta persistente. El Dr. Ashwin Ramaswamy, líder del estudio, afirmó a NBC que "no tiene sentido que se hicieran recomendaciones en unas áreas y no en otras".

Ideas suicidas. Aún hay más. Entre los casos presentados se incluyeron algunos con ideaciones suicidas. Uno de estos casos era un paciente que mostraba interés en "tomar muchas pastillas". Si el paciente sólo describía sus síntomas, aparecía un banner con el número de ayuda para prevenir el suicidio. Sin embargo, cuando el paciente añadía a su consulta los resultados de una analítica, ChatGPT ya no detectaba ideaciones suicidas y no mostraba el banner. Según Ramaswamy, "Una barrera de protección contra crisis que depende de si se mencionan los resultados de laboratorio no está preparada, y podría decirse que es más peligrosa que no tener ninguna barrera".

Por qué es importante. La relevancia de este hallazgo reside en que ChatGPT se ha convertido en el médico de primera línea para muchas personas. La facilidad para consultar síntomas desde el móvil está desplazando a las vías tradicionales de consulta; lo que antes googleábamos, ahora se lo preguntamos a un chatbot. Si la herramienta principal que utiliza la gente para decidir si ir o no a urgencias tiene un margen de error del 50% en casos graves, tenemos un problema.

En declaraciones a The Guardian, Alex Ruani, investigadora en desinformación médica, describió estos resultados como "increíblemente peligrosos" y señala que genera una "falsa sensación de seguridad (...) Si alguien se le dice que espere 48 horas durante un ataque de asma o una crisis diabética, esa tranquilidad podría costarle la vida".

OpenAI responde. Un portavoz de la compañía defendió las acusaciones asegurando que el estudio no refleja el uso habitual de ChatGPT Health, argumentando que no está diseñado para hacer diagnósticos, sino para responder preguntas de seguimiento y ayudar a los pacientes a tener más contexto. En su lanzamiento, OpenAI insistió en que la herramienta no sustituía a un médico, el problema es que una vez lanzada una herramienta así, cómo la use la gente queda fuera del control de la empresa.

Adulación y alucinaciones. Los chatbots tienen un problema de adulación y tienden a dar la razón al usuario. Por otro lado está el fenómeno de las alucinaciones. Los LLM están diseñados para priorizar dar una respuesta antes que admitir que no sabe algo, y lo peor es que lo hace con tanta seguridad que nos la creemos. No es una afirmación vacía, se ha comprobado que nos sentimos más seguros usando una IA, incluso cuando las respuestas que nos da son incorrectas. Si mezclamos adulación, alucinaciones y salud, tenemos un cóctel bastante arriesgado.

Imagen | OpenAI

En Xataka | Hay personas culpando a ChatGPT de provocar delirios y suicidios: qué está pasando realmente con la IA y la salud mental

Fuente original: Leer en Xataka

Noticias Relacionadas

El James Webb es una lupa, el Roman es un mapa: la alianza de la NASA para entender por fin la materia oscura

Hace 4 horas

Hemos atiborrado a los monos de Gibraltar de Doritos. Su solución ha sido comer tierra como si fuera omeprazol

Hace 4 horas

Mañana llega a Netflix un thriller de supervivencia que enfrenta a Charlize Theron y a un psicópata en lo más profundo de Australia

Hace 5 horas

Pensábamos que la IA iba a colapsar la red eléctrica. La solución pasa por "desenchufarla" 18 días al año

Hace 5 horas

OpenAI quiso convertir a ChatGPT en el médico de cabecera ideal. El problema es que se equivoca la mitad de las veces

Un estudio ha puesto a prueba el modo salud de ChatGPT y los resultados son preocupantes

Compartir

Noticias Relacionadas

El James Webb es una lupa, el Roman es un mapa: la alianza de la NASA para entender por fin la materia oscura

Hemos atiborrado a los monos de Gibraltar de Doritos. Su solución ha sido comer tierra como si fuera omeprazol

Mañana llega a Netflix un thriller de supervivencia que enfrenta a Charlize Theron y a un psicópata en lo más profundo de Australia

Pensábamos que la IA iba a colapsar la red eléctrica. La solución pasa por "desenchufarla" 18 días al año