¿Qué pasó aquí? Los sistemas de IA mostraron sesgos sistemáticos al evaluar los textos. Por ejemplo, tendían a favorecer ensayos largos, con vocabulario más amplio, oraciones complejas y muchos conectores lógicos. En otras palabras, parecían reaccionar más a la forma del lenguaje que a la calidad real de las ideas. Style over substance.
Además, los LLM exhibieron una “tendencia central” que otorgaba calificaciones medias incluso cuando los trabajos eran excepcionalmente buenos. Eso significa que los mejores ensayos recibían notas más bajas de las que merecían, mientras que los peores eran evaluados con demasiada benevolencia.
“Hemos constatado que depender en gran medida de los mejores modelos de IA actuales daría como resultado una calificación de los estudiantes homogeneizada, que subestimaría la brillantez y favorecería el estilo lingüístico por encima del contenido de un juicio académico sólido”, dijo Deborah Talmi.
Paradójicamente, aunque los LLM no coincidían del todo con los humanos, sí coincidían mucho entre ellos. Los tres modelos produjeron resultados notablemente consistentes cuando se les pidió recalificar los mismos ensayos varios días después. También mostraron altos niveles de acuerdo mutuo. Para los investigadores, esto sugiere que los sistemas comparten patrones similares de razonamiento, o de error, incluso cuando pertenecen a empresas distintas.
los abucheos a Eric Schmidt).La preocupación, por supuesto, va más allá de las notas. Varios participantes temían que una dependencia excesiva de estas herramientas termine debilitando el aprendizaje. “Es muy fácil completar un ensayo con IA; ya casi no necesitas pensar”, comentó un estudiante citado en el informe. Otros señalaron que la automatización podría erosionar las habilidades fundamentales como la lectura crítica o la argumentación.