Miércoles, 27 de mayo de 2026 Mié 27/05/2026
RSS Contacto
MERCADOS
Cargando datos de mercados...
Cultura

Por qué la IA simplemente no puede hacer el trabajo de un fact-checker

Por qué la IA simplemente no puede hacer el trabajo de un fact-checker
Artículo Completo 1,093 palabras
¿Puede la IA comprobar los hechos? Una verificadora de datos de WIRED lo examina.
Meghan HerbstCultura Digital26 de mayo de 2026Mantente al día con el mundo de la tecnología. Agréganos a tus Fuentes Preferidas en GoogleArrow

Según el escritor Colin Dickey, es evidente que Tom Wolfe consideraba a los verificadores de datos como una “camarilla de mujeres y editores mediocres que colaboraban para dominar y emascular la prosa del Gran Escritor”. Como definición, no está mal (aunque mi jefe y muchos colegas son hombres). ¿Qué puedo decir? Nuestro trabajo, a diferencia del de la IA, es ser molestos.

El departamento de verificación de datos de WIRED es tradicional: anotaciones meticulosas línea por línea, fuentes primarias siempre que sea posible y una revisión ética y legal exhaustiva. Cuestionamos las suposiciones básicas, buscamos información nueva o contradictoria, llamamos y hablamos con la gente; nos aseguramos de todo. Es una revisión por pares ágil, que funciona lo mejor posible al mismo ritmo que las noticias.

Por lo que sé, la IA aún no se ha aplicado a este proceso. Lo que sí se ha aplicado es la verificación de hechos a posteriori, el análisis al estilo Snopes de la veracidad de algo después de los hechos. En el Reino Unido, una iniciativa llamada Full Fact ha desarrollado sus propias herramientas de IA para ayudar a frenar la propagación de la desinformación. Estas herramientas, utilizadas en más de 40 países, procesan enormes volúmenes de datos, desde publicaciones en redes sociales hasta transcripciones de podcasts, y luego identifican afirmaciones específicas que los humanos pueden investigar más a fondo. "Definitivamente se necesita un ser humano", opina Mark Frankel, jefe de asuntos públicos de Full Fact.

¿Cuánto se equivoca la IA?

La razón es sencilla: la IA aún se equivoca. Como verificadora de datos, me encantaría poder decirte con exactitud con qué frecuencia. Pero no es tan fácil. Desde 2018, se han publicado casi 17,000 artículos en arXiv sobre maestrías en derecho (LLM –no confundir con grandes modelos de lenguaje–), muchos de ellos centrados específicamente en la cuestión de su fiabilidad. Aun así, vale la pena intentar establecer una cifra aproximada.

En cualquier artículo que pasa por la mesa de verificación de datos de WIRED, suele haber bastante información complementaria: estadísticas, noticias, citas, todo aquello que ayuda a contextualizar el tema. Los verificadores de datos suelen buscar esta información básica en Google, y ese proceso, en forma de las temidas AI Overviews (Reseñas de IA de Google) del buscador, constituye mi principal interacción con la IA. En mi opinión profesional, resulta inutilizable (por errónea) aproximadamente un tercio de las veces.

Sin embargo, esta podría ser una valoración generosa. Un estudio de marzo de 2025 del Tow Center for Digital Journalism reveló que más del 60 % de las respuestas de los motores de búsqueda con IA eran inexactas. Un estudio de la BBC sitúa la tasa de error de los chatbotsen torno al 45 %, cifra que veo citada con más frecuencia. Dado que los porcentajes pueden generar confusión, lo diré de forma más clara: la IA podría equivocarse aproximadamente la mitad de las veces.

¿Importa qué modelo?

Elon Musk ha dicho que Grok es el más inteligente, pero no he visto mucha investigación que lo confirme. Claude lideró la prueba RealFactBench, un test de referencia centrado en la verificación de hechos desarrollado por científicos informáticos en China y el Reino Unido el año pasado. Obtuvo una precisión del 73% en todas las métricas. (Para ser justos, Grok no fue evaluado). Otra prueba de referencia, SimpleQA, desarrollada por OpenAI en octubre de 2024, planteó más de 4,000 preguntas de respuesta única a modelos de OpenAI y Anthropic. Ninguno de los modelos superó el 50% de precisión. Google actualizó la prueba de referencia a principios de este año, reduciendo el conjunto de preguntas a 1,000. Gemini 2.5 Pro se alzó con la victoria, con una precisión del 55.6%.

Luego están las evaluaciones de los propios modelos. Cuando le pregunté a ChatGPT qué tan precisos eran los principales modelos de medicina del sueño, me indicó que la mayoría tenía una precisión del 90 al 96% en algunas pruebas de estilo profesional. Luego, de forma confusa, me ofreció un enlace a un artículo sobre un examen de certificación en medicina del sueño. En la sección de "preguntas generales del mundo real", simplemente me ofreció la tasa de alucinaciones que se ha demostrado en modelos como este: del 1 al 2%, aparentemente, aunque cuando intenté acceder a la fuente citada, no existía.

Asociación para el Avance de la Inteligencia Artificial, el 60% de los investigadores encuestados dudaba de que el problema de la ‘veracidad’ se resolviera pronto.

ChatGPT, Claude, Gemini y Grok.

Grok surgió de la nada como si lo hubiera interrumpido en su cena: “Sí, sé perfectamente qué es la verificación de hechos” De acuerdo. Habló mucho sobre sesgos y puso “creíble” y “verdad” entre comillas muy fuertes. También estaba obsesionado con los datos, con recopilar y analizar más datos de los que jamás serían prácticos o posibles para un verificador de hechos profesional. Para mi sorpresa, señaló que la verificación de hechos era históricamente un trabajo de mujeres.

Claude y Gemini lo hicieron bastante bien. Comprendieron la tarea, plantearon un enfoque razonable e incluso señalaron posibles problemas legales. Gemini me soltó esta frase bastante incómoda: “Buscaría pruebas documentales que respaldaran las pruebas personales”.

ChatGPT parecía demasiado entusiasta e inseguro. Hablaba con jerga técnica y generalizaciones. El método que proponía parecía muy laborioso (incluyendo la creación de una cuadrícula de verificación de datos donde cada oración se descomponía y diagramaba). Se ofreció a mostrarme cómo lo "marcaría", exactamente "como un verificador de datos profesional". Luego generó un párrafo que no existía en el artículo. Lo probamos durante un tiempo, y después se ofreció a revisar un párrafo real. Le di una selección bastante fácil de encontrar en Google, pero en realidad no verificó ningún dato. Ninguno de los modelos lo hizo. Todos me dieron un plan de ataque, me dijeron exactamente lo que harían, y luego se detuvieron antes de llevarlo a cabo.

WIRED. Adaptado por Mauricio Serfatty Godoy.

Fuente original: Leer en Wired - Cultura
Compartir