Tecnología

OpenAI acaba de asumir una verdad incómoda sobre los navegadores con IA: hay un tipo de ataque imposible de bloquear

Xataka Javier Marquez 24/12/2025 18:16 4 vistas

Artículo Completo 822 palabras

El navegador está dejando de ser solo una ventana a Internet para convertirse en una herramienta que también opera dentro de la web. En el caso de Modo agente en ChatGPT Atlas, OpenAI explica que su agente ve páginas y puede realizar acciones, clics y pulsaciones de teclado dentro del navegador, igual que haría una persona. La promesa es clara, ayudar en flujos cotidianos con el mismo contexto y los mismos datos. La consecuencia también lo es, cuanto más poder concentramos en un agente, más atractivo se vuelve para quien busque manipularlo. Qué es un prompt injection. En términos sencillos, un prompt injection es una técnica que busca colar instrucciones maliciosas dentro de contenidos aparentemente normales para que un sistema de inteligencia artificial las interprete como órdenes legítimas. IBM lo describe como un tipo de ciberataque contra modelos de lenguaje en el que se camuflan entradas maliciosas como prompts válidos para manipular el comportamiento del sistema. El objetivo puede ir desde forzar respuestas indebidas hasta provocar filtraciones de información o desviar una tarea, sin necesidad de explotar vulnerabilidades clásicas de software. La raíz del problema es menos “mágica” de lo que parece y más estructural. Muchas aplicaciones con modelos de lenguaje combinan instrucciones del desarrollador y entradas del usuario como cadenas de texto en lenguaje natural, sin una separación rígida por tipo de dato. El modelo decide qué priorizar a partir de patrones aprendidos y del contexto del propio texto, no porque haya una frontera infalible entre “orden” y “contenido”. Si una instrucción externa se formula de manera convincente, puede ganar peso aunque no debería. Cuando el contexto se vuelve inabarcable. El riesgo se amplifica cuando el agente no procesa un único mensaje, sino que recorre fuentes muy distintas dentro de un mismo encargo. OpenAI advierte de una superficie prácticamente ilimitada, correos y adjuntos, invitaciones de calendario, documentos compartidos, foros, redes sociales y páginas web arbitrarias. En ese recorrido, el agente puede encontrarse con instrucciones no fiables mezcladas con contenido legítimo. El usuario no siempre ve cada paso, pero el sistema sí lo consume, y ahí es donde la manipulación puede colarse. Lo inquietante es que esto puede encajar en flujos de trabajo corrientes sin levantar una alarma evidente. La firma de IA describe un ejemplo en el que un atacante “siembra” una bandeja de entrada con un correo malicioso, y más tarde, cuando el usuario pide una tarea inocua, el agente lee ese mensaje durante la ejecución normal. En una dema, el resultado es extremo a propósito, el agente termina enviando un email de renuncia en lugar de redactar una respuesta automática. Todo esto gracias a un ataque externo. Por qué no existe el blindaje perfecto. En ciberseguridad hay una idea ampliamente asumida, ningún sistema es completamente seguro, y OpenAI encuadra el prompt injection como un problema persistente. En su texto lo formula así: “Esperamos que los atacantes sigan adaptándose. La inyección de prompts, como las estafas y la ingeniería social en la web, difícilmente se resolverá por completo”. El objetivo, por tanto, no es prometer invulnerabilidad, sino elevar el coste del ataque y reducir el impacto cuando algo falla. En Xataka Hay 500 millones de de usuarios que podrían perfectamente actualizar a Windows 11. El problema es que no quieren En ese contexto, los liderados por Sam Altman explican que ha desplegado una actualización de seguridad para el agente de Atlas motivada por una nueva clase de ataques descubierta mediante red teaming interno automatizado. La compañía afirma que la entrega incluye un modelo del agente entrenado de forma adversarial y salvaguardas reforzadas alrededor del sistema, con la intención de mejorar su resistencia frente a instrucciones no deseadas durante la navegación. Lo que hacemos sigue importando. OpenAI recomienda usar el agente sin sesión iniciada cuando no sea necesario acceder a sitios con cuenta, y revisar con calma las solicitudes de confirmación en acciones sensibles, como enviar un correo o completar una compra. También aconseja dar instrucciones explícitas y acotadas, evitando encargos demasiado amplios que obliguen al agente a recorrer grandes volúmenes de contenido. No elimina el riesgo, pero reduce oportunidades de manipulación y ayuda a que los controles existentes funcionen como están diseñados. Imágenes | OpenAI En Xataka | Cada cuánto debemos cambiar TODAS nuestras contraseñas según tres expertos en ciberseguridad - La noticia OpenAI acaba de asumir una verdad incómoda sobre los navegadores con IA: hay un tipo de ataque imposible de bloquear fue publicada originalmente en Xataka por Javier Marquez .

Los agentes en el navegador ya son una realidad
El prompt injection explota una debilidad estructural del lenguaje natural
OpenAI dice que este problema no se erradicará

Sin comentarios Facebook Twitter Flipboard E-mail 2025-12-24T17:16:59Z

Javier Marquez

Editor - Tech

Javier Marquez

Editor - Tech Linkedin twitter 3076 publicaciones de Javier Marquez

Qué es un prompt injection. En términos sencillos, un prompt injection es una técnica que busca colar instrucciones maliciosas dentro de contenidos aparentemente normales para que un sistema de inteligencia artificial las interprete como órdenes legítimas. IBM lo describe como un tipo de ciberataque contra modelos de lenguaje en el que se camuflan entradas maliciosas como prompts válidos para manipular el comportamiento del sistema. El objetivo puede ir desde forzar respuestas indebidas hasta provocar filtraciones de información o desviar una tarea, sin necesidad de explotar vulnerabilidades clásicas de software.

La raíz del problema es menos “mágica” de lo que parece y más estructural. Muchas aplicaciones con modelos de lenguaje combinan instrucciones del desarrollador y entradas del usuario como cadenas de texto en lenguaje natural, sin una separación rígida por tipo de dato. El modelo decide qué priorizar a partir de patrones aprendidos y del contexto del propio texto, no porque haya una frontera infalible entre “orden” y “contenido”. Si una instrucción externa se formula de manera convincente, puede ganar peso aunque no debería.

Cuando el contexto se vuelve inabarcable. El riesgo se amplifica cuando el agente no procesa un único mensaje, sino que recorre fuentes muy distintas dentro de un mismo encargo. OpenAI advierte de una superficie prácticamente ilimitada, correos y adjuntos, invitaciones de calendario, documentos compartidos, foros, redes sociales y páginas web arbitrarias. En ese recorrido, el agente puede encontrarse con instrucciones no fiables mezcladas con contenido legítimo. El usuario no siempre ve cada paso, pero el sistema sí lo consume, y ahí es donde la manipulación puede colarse.

Lo inquietante es que esto puede encajar en flujos de trabajo corrientes sin levantar una alarma evidente. La firma de IA describe un ejemplo en el que un atacante “siembra” una bandeja de entrada con un correo malicioso, y más tarde, cuando el usuario pide una tarea inocua, el agente lee ese mensaje durante la ejecución normal. En una dema, el resultado es extremo a propósito, el agente termina enviando un email de renuncia en lugar de redactar una respuesta automática. Todo esto gracias a un ataque externo.

Por qué no existe el blindaje perfecto. En ciberseguridad hay una idea ampliamente asumida, ningún sistema es completamente seguro, y OpenAI encuadra el prompt injection como un problema persistente. En su texto lo formula así: “Esperamos que los atacantes sigan adaptándose. La inyección de prompts, como las estafas y la ingeniería social en la web, difícilmente se resolverá por completo”. El objetivo, por tanto, no es prometer invulnerabilidad, sino elevar el coste del ataque y reducir el impacto cuando algo falla.

En Xataka Hay 500 millones de de usuarios que podrían perfectamente actualizar a Windows 11. El problema es que no quieren

En ese contexto, los liderados por Sam Altman explican que ha desplegado una actualización de seguridad para el agente de Atlas motivada por una nueva clase de ataques descubierta mediante red teaming interno automatizado. La compañía afirma que la entrega incluye un modelo del agente entrenado de forma adversarial y salvaguardas reforzadas alrededor del sistema, con la intención de mejorar su resistencia frente a instrucciones no deseadas durante la navegación.

Lo que hacemos sigue importando. OpenAI recomienda usar el agente sin sesión iniciada cuando no sea necesario acceder a sitios con cuenta, y revisar con calma las solicitudes de confirmación en acciones sensibles, como enviar un correo o completar una compra. También aconseja dar instrucciones explícitas y acotadas, evitando encargos demasiado amplios que obliguen al agente a recorrer grandes volúmenes de contenido. No elimina el riesgo, pero reduce oportunidades de manipulación y ayuda a que los controles existentes funcionen como están diseñados.

Imágenes | OpenAI

En Xataka | Cada cuánto debemos cambiar TODAS nuestras contraseñas según tres expertos en ciberseguridad

Fuente original: Leer en Xataka

Noticias Relacionadas

Algo se está torciendo con la IA. EEUU está recurriendo a soluciones energéticas que creía enterradas para alimentar los data centers

Hace 40 minutos

Hemos encontrado el talón de Aquiles del hongo más temido en los hospitales, y eso ya nos da una esperanza

Hace 54 minutos

En 1844 ya había gente que jugaba al ajedrez online, aunque no de la manera que estás pensando

Hace 1 horas

Los barrios ricos de Madrid y Barcelona han cambiado su acento: los millonarios de EEUU y México invierten sus fortunas en España

Hace 2 horas

OpenAI acaba de asumir una verdad incómoda sobre los navegadores con IA: hay un tipo de ataque imposible de bloquear

Los agentes en el navegador ya son una realidad

El prompt injection explota una debilidad estructural del lenguaje natural

OpenAI dice que este problema no se erradicará

Compartir

Noticias Relacionadas

Algo se está torciendo con la IA. EEUU está recurriendo a soluciones energéticas que creía enterradas para alimentar los data centers

Hemos encontrado el talón de Aquiles del hongo más temido en los hospitales, y eso ya nos da una esperanza

En 1844 ya había gente que jugaba al ajedrez online, aunque no de la manera que estás pensando

Los barrios ricos de Madrid y Barcelona han cambiado su acento: los millonarios de EEUU y México invierten sus fortunas en España