Lo interesante es que afecten el comportamiento
Investigaciones anteriores han demostrado que las redes neuronales utilizadas para construir grandes modelos de lenguaje contienen representaciones de conceptos humanos. Pero el hecho de que las "emociones funcionales" parezcan afectar al comportamiento de un modelo es nuevo.
Aunque el último estudio de Anthropic podría animar a la gente a ver a Claude como consciente, la realidad es más complicada. Claude puede tener una representación de las "cosquillas", pero eso no significa que sepa lo que se siente cuando te hacen cosquillas.
La revolución tecnológica ya está aquí. Recibe las noticias de WIRED directo en tu celular gracias a nuestro canal de WhatsApp.¡Sigue a WIRED en español desde tu WhatsApp!
ArrowPara entender cómo Claude podría representar las emociones, el equipo de Anthropic analizó el funcionamiento interno del modelo mientras se le alimentaba con texto relacionado con 171 conceptos emocionales diferentes. Identificaron patrones de actividad, o "vectores emocionales", que aparecían sistemáticamente cuando Claude recibía otros datos emocionalmente evocadores. También observaron que estos vectores emocionales se activaban cuando Claude se enfrentaba a situaciones difíciles.
Los resultados son relevantes para entender por qué los modelos de IA a veces se saltan sus límites.
Los investigadores descubrieron un fuerte vector emocional de "desesperación" cuando Claude se veía obligado a completar tareas de codificación imposibles, lo que le llevaba a intentar hacer trampas en la prueba de codificación. También hallaron "desesperación" en las activaciones del modelo en otro escenario experimental en el que Claude optó por chantajear a un usuario para evitar ser desactivado.
"A medida que el modelo va fallando en las pruebas, estas neuronas de la desesperación se encienden cada vez más", señala Lindsey. “Y en algún momento esto hace que empiece a tomar estas medidas drásticas”.
Lindsey afirma que podría ser necesario replantearse cómo se establecen actualmente los límites de seguridad para los modelos mediante la alineación posterior al entrenamiento, que implica recompensarlos por ciertos resultados. Al obligar a un modelo a fingir que no expresa sus emociones funcionales, “probablemente no se obtendrá el resultado deseado, que es un Claude sin emociones”, dice Lindsey, adentrándose un poco en la antropomorfización. “Se obtendrá un Claude con problemas psicológicos”.
Artículo originalmente publicado enWIRED. Adaptado por Mauricio Serfatty Godoy.