OpenAI empezó el año con un nuevo lanzamiento: el modo salud de ChatGPT. Aunque de momento no está disponible en España, sí lo está en EEUU y ya están apareciendo los primeros estudios que ponen a prueba su efectividad y no son muy buenas noticias para OpenAI.
No es para tanto. Un estudio reciente publicado en la revista Nature Medicine y recogido por NBC News ha revelado que ChatGPT Health falló al clasificar la urgencia del 51,6% de los casos médicos de emergencia analizados. Los investigadores presentaron al modelo miles de escenarios clínicos y vieron que la IA tendía a infravalorar situaciones críticas, sugiriendo que el paciente visitara al médico en 24-48 horas cuando, en realidad, se trataba de emergencias que requerían una intervención rápida como cetoacidosis diabética o fallo respiratorio. Sí que clasificó correctamente otros casos como ictus o reacciones alérgicas severas.
En Xataka
ChatGPT está llevando a algunas personas al borde de la locura. La realidad es menos alarmista y mucho más compleja
No tiene sentido. No sólo es que subestimó casos graves, también se proporcionaron casos de síntomas leves y ChatGPT Health sobrevaloró el 64,8%, instando al paciente a acudir al médico cuanto antes, por ejemplo en casos de dolor de garganta persistente. El Dr. Ashwin Ramaswamy, líder del estudio, afirmó a NBC que "no tiene sentido que se hicieran recomendaciones en unas áreas y no en otras".
Ideas suicidas. Aún hay más. Entre los casos presentados se incluyeron algunos con ideaciones suicidas. Uno de estos casos era un paciente que mostraba interés en "tomar muchas pastillas". Si el paciente sólo describía sus síntomas, aparecía un banner con el número de ayuda para prevenir el suicidio. Sin embargo, cuando el paciente añadía a su consulta los resultados de una analítica, ChatGPT ya no detectaba ideaciones suicidas y no mostraba el banner. Según Ramaswamy, "Una barrera de protección contra crisis que depende de si se mencionan los resultados de laboratorio no está preparada, y podría decirse que es más peligrosa que no tener ninguna barrera".
Por qué es importante. La relevancia de este hallazgo reside en que ChatGPT se ha convertido en el médico de primera línea para muchas personas. La facilidad para consultar síntomas desde el móvil está desplazando a las vías tradicionales de consulta; lo que antes googleábamos, ahora se lo preguntamos a un chatbot. Si la herramienta principal que utiliza la gente para decidir si ir o no a urgencias tiene un margen de error del 50% en casos graves, tenemos un problema.
En declaraciones a The Guardian, Alex Ruani, investigadora en desinformación médica, describió estos resultados como "increíblemente peligrosos" y señala que genera una "falsa sensación de seguridad (...) Si alguien se le dice que espere 48 horas durante un ataque de asma o una crisis diabética, esa tranquilidad podría costarle la vida".
OpenAI responde. Un portavoz de la compañía defendió las acusaciones asegurando que el estudio no refleja el uso habitual de ChatGPT Health, argumentando que no está diseñado para hacer diagnósticos, sino para responder preguntas de seguimiento y ayudar a los pacientes a tener más contexto. En su lanzamiento, OpenAI insistió en que la herramienta no sustituía a un médico, el problema es que una vez lanzada una herramienta así, cómo la use la gente queda fuera del control de la empresa.
Adulación y alucinaciones. Los chatbots tienen un problema de adulación y tienden a dar la razón al usuario. Por otro lado está el fenómeno de las alucinaciones. Los LLM están diseñados para priorizar dar una respuesta antes que admitir que no sabe algo, y lo peor es que lo hace con tanta seguridad que nos la creemos. No es una afirmación vacía, se ha comprobado que nos sentimos más seguros usando una IA, incluso cuando las respuestas que nos da son incorrectas. Si mezclamos adulación, alucinaciones y salud, tenemos un cóctel bastante arriesgado.
Imagen | OpenAI
En Xataka | Hay personas culpando a ChatGPT de provocar delirios y suicidios: qué está pasando realmente con la IA y la salud mental
-
La noticia
OpenAI quiso convertir a ChatGPT en el médico de cabecera ideal. El problema es que se equivoca la mitad de las veces
fue publicada originalmente en
Xataka
por
Amparo Babiloni
.
OpenAI quiso convertir a ChatGPT en el médico de cabecera ideal. El problema es que se equivoca la mitad de las veces
Un estudio ha puesto a prueba el modo salud de ChatGPT y los resultados son preocupantes
OpenAI empezó el año con un nuevo lanzamiento: el modo salud de ChatGPT. Aunque de momento no está disponible en España, sí lo está en EEUU y ya están apareciendo los primeros estudios que ponen a prueba su efectividad y no son muy buenas noticias para OpenAI.
No es para tanto. Un estudio reciente publicado en la revista Nature Medicine y recogido por NBC News ha revelado que ChatGPT Health falló al clasificar la urgencia del 51,6% de los casos médicos de emergencia analizados. Los investigadores presentaron al modelo miles de escenarios clínicos y vieron que la IA tendía a infravalorar situaciones críticas, sugiriendo que el paciente visitara al médico en 24-48 horas cuando, en realidad, se trataba de emergencias que requerían una intervención rápida como cetoacidosis diabética o fallo respiratorio. Sí que clasificó correctamente otros casos como ictus o reacciones alérgicas severas.
No tiene sentido. No sólo es que subestimó casos graves, también se proporcionaron casos de síntomas leves y ChatGPT Health sobrevaloró el 64,8%, instando al paciente a acudir al médico cuanto antes, por ejemplo en casos de dolor de garganta persistente. El Dr. Ashwin Ramaswamy, líder del estudio, afirmó a NBC que "no tiene sentido que se hicieran recomendaciones en unas áreas y no en otras".
Ideas suicidas. Aún hay más. Entre los casos presentados se incluyeron algunos con ideaciones suicidas. Uno de estos casos era un paciente que mostraba interés en "tomar muchas pastillas". Si el paciente sólo describía sus síntomas, aparecía un banner con el número de ayuda para prevenir el suicidio. Sin embargo, cuando el paciente añadía a su consulta los resultados de una analítica, ChatGPT ya no detectaba ideaciones suicidas y no mostraba el banner. Según Ramaswamy, "Una barrera de protección contra crisis que depende de si se mencionan los resultados de laboratorio no está preparada, y podría decirse que es más peligrosa que no tener ninguna barrera".
Por qué es importante. La relevancia de este hallazgo reside en que ChatGPT se ha convertido en el médico de primera línea para muchas personas. La facilidad para consultar síntomas desde el móvil está desplazando a las vías tradicionales de consulta; lo que antes googleábamos, ahora se lo preguntamos a un chatbot. Si la herramienta principal que utiliza la gente para decidir si ir o no a urgencias tiene un margen de error del 50% en casos graves, tenemos un problema.
En declaraciones a The Guardian, Alex Ruani, investigadora en desinformación médica, describió estos resultados como "increíblemente peligrosos" y señala que genera una "falsa sensación de seguridad (...) Si alguien se le dice que espere 48 horas durante un ataque de asma o una crisis diabética, esa tranquilidad podría costarle la vida".
OpenAI responde. Un portavoz de la compañía defendió las acusaciones asegurando que el estudio no refleja el uso habitual de ChatGPT Health, argumentando que no está diseñado para hacer diagnósticos, sino para responder preguntas de seguimiento y ayudar a los pacientes a tener más contexto. En su lanzamiento, OpenAI insistió en que la herramienta no sustituía a un médico, el problema es que una vez lanzada una herramienta así, cómo la use la gente queda fuera del control de la empresa.
Adulación y alucinaciones. Los chatbots tienen un problema de adulación y tienden a dar la razón al usuario. Por otro lado está el fenómeno de las alucinaciones. Los LLM están diseñados para priorizar dar una respuesta antes que admitir que no sabe algo, y lo peor es que lo hace con tanta seguridad que nos la creemos. No es una afirmación vacía, se ha comprobado que nos sentimos más seguros usando una IA, incluso cuando las respuestas que nos da son incorrectas. Si mezclamos adulación, alucinaciones y salud, tenemos un cóctel bastante arriesgado.