Noticias - News365

Will KnightCultura Digital6 de abril de 2026Play/Pause ButtonPauseinterpretabilidad mecanicista. Se trata de estudiar cómo se activan las neuronas artificiales cuando reciben diferentes entradas o generan diversas salidas.

Lo interesante es que afecten el comportamiento

Investigaciones anteriores han demostrado que las redes neuronales utilizadas para construir grandes modelos de lenguaje contienen representaciones de conceptos humanos. Pero el hecho de que las "emociones funcionales" parezcan afectar al comportamiento de un modelo es nuevo.

Aunque el último estudio de Anthropic podría animar a la gente a ver a Claude como consciente, la realidad es más complicada. Claude puede tener una representación de las "cosquillas", pero eso no significa que sepa lo que se siente cuando te hacen cosquillas.

La revolución tecnológica ya está aquí. Recibe las noticias de WIRED directo en tu celular gracias a nuestro canal de WhatsApp.

¡Sigue a WIRED en español desde tu WhatsApp!

Arrow

Para entender cómo Claude podría representar las emociones, el equipo de Anthropic analizó el funcionamiento interno del modelo mientras se le alimentaba con texto relacionado con 171 conceptos emocionales diferentes. Identificaron patrones de actividad, o "vectores emocionales", que aparecían sistemáticamente cuando Claude recibía otros datos emocionalmente evocadores. También observaron que estos vectores emocionales se activaban cuando Claude se enfrentaba a situaciones difíciles.

Los resultados son relevantes para entender por qué los modelos de IA a veces se saltan sus límites.

Los investigadores descubrieron un fuerte vector emocional de "desesperación" cuando Claude se veía obligado a completar tareas de codificación imposibles, lo que le llevaba a intentar hacer trampas en la prueba de codificación. También hallaron "desesperación" en las activaciones del modelo en otro escenario experimental en el que Claude optó por chantajear a un usuario para evitar ser desactivado.

"A medida que el modelo va fallando en las pruebas, estas neuronas de la desesperación se encienden cada vez más", señala Lindsey. “Y en algún momento esto hace que empiece a tomar estas medidas drásticas”.

Lindsey afirma que podría ser necesario replantearse cómo se establecen actualmente los límites de seguridad para los modelos mediante la alineación posterior al entrenamiento, que implica recompensarlos por ciertos resultados. Al obligar a un modelo a fingir que no expresa sus emociones funcionales, “probablemente no se obtendrá el resultado deseado, que es un Claude sin emociones”, dice Lindsey, adentrándose un poco en la antropomorfización. “Se obtendrá un Claude con problemas psicológicos”.

Artículo originalmente publicado enWIRED. Adaptado por Mauricio Serfatty Godoy.

Anthropic descubre que Claude tiene emociones que influyen en su comportamiento

Lo interesante es que afecten el comportamiento

Compartir

Noticias Relacionadas

Las 8 mejores series en streaming para ver este fin de semana

El sector del libro valenciano se reivindica como motor social tras la dana

Cristina de Middel, fiesta para los sentidos en el IVAM

'What Silence Keeps': silencios liberadores en la galería Sabrina Amrani