Lunes, 06 de abril de 2026 Lun 06/04/2026
RSS Contacto
MERCADOS
Cargando datos de mercados...
Cultura

Anthropic descubre que Claude tiene emociones que influyen en su comportamiento

Anthropic descubre que Claude tiene emociones que influyen en su comportamiento
Artículo Completo 431 palabras
Los investigadores de la empresa encontraron en el interior de Claude representaciones que realizan funciones similares a los sentimientos humanos.
Will KnightCultura Digital6 de abril de 2026Play/Pause ButtonPauseinterpretabilidad mecanicista. Se trata de estudiar cómo se activan las neuronas artificiales cuando reciben diferentes entradas o generan diversas salidas.

Lo interesante es que afecten el comportamiento

Investigaciones anteriores han demostrado que las redes neuronales utilizadas para construir grandes modelos de lenguaje contienen representaciones de conceptos humanos. Pero el hecho de que las "emociones funcionales" parezcan afectar al comportamiento de un modelo es nuevo.

Aunque el último estudio de Anthropic podría animar a la gente a ver a Claude como consciente, la realidad es más complicada. Claude puede tener una representación de las "cosquillas", pero eso no significa que sepa lo que se siente cuando te hacen cosquillas.

La revolución tecnológica ya está aquí. Recibe las noticias de WIRED directo en tu celular gracias a nuestro canal de WhatsApp.

¡Sigue a WIRED en español desde tu WhatsApp!

Arrow

Para entender cómo Claude podría representar las emociones, el equipo de Anthropic analizó el funcionamiento interno del modelo mientras se le alimentaba con texto relacionado con 171 conceptos emocionales diferentes. Identificaron patrones de actividad, o "vectores emocionales", que aparecían sistemáticamente cuando Claude recibía otros datos emocionalmente evocadores. También observaron que estos vectores emocionales se activaban cuando Claude se enfrentaba a situaciones difíciles.

Los resultados son relevantes para entender por qué los modelos de IA a veces se saltan sus límites.

Los investigadores descubrieron un fuerte vector emocional de "desesperación" cuando Claude se veía obligado a completar tareas de codificación imposibles, lo que le llevaba a intentar hacer trampas en la prueba de codificación. También hallaron "desesperación" en las activaciones del modelo en otro escenario experimental en el que Claude optó por chantajear a un usuario para evitar ser desactivado.

"A medida que el modelo va fallando en las pruebas, estas neuronas de la desesperación se encienden cada vez más", señala Lindsey. “Y en algún momento esto hace que empiece a tomar estas medidas drásticas”.

Lindsey afirma que podría ser necesario replantearse cómo se establecen actualmente los límites de seguridad para los modelos mediante la alineación posterior al entrenamiento, que implica recompensarlos por ciertos resultados. Al obligar a un modelo a fingir que no expresa sus emociones funcionales, “probablemente no se obtendrá el resultado deseado, que es un Claude sin emociones”, dice Lindsey, adentrándose un poco en la antropomorfización. “Se obtendrá un Claude con problemas psicológicos”.

Artículo originalmente publicado enWIRED. Adaptado por Mauricio Serfatty Godoy.

Fuente original: Leer en Wired - Cultura
Compartir