El navegador está dejando de ser solo una ventana a Internet para convertirse en una herramienta que también opera dentro de la web. En el caso de Modo agente en ChatGPT Atlas, OpenAI explica que su agente ve páginas y puede realizar acciones, clics y pulsaciones de teclado dentro del navegador, igual que haría una persona. La promesa es clara, ayudar en flujos cotidianos con el mismo contexto y los mismos datos. La consecuencia también lo es, cuanto más poder concentramos en un agente, más atractivo se vuelve para quien busque manipularlo.
Qué es un prompt injection. En términos sencillos, un prompt injection es una técnica que busca colar instrucciones maliciosas dentro de contenidos aparentemente normales para que un sistema de inteligencia artificial las interprete como órdenes legítimas. IBM lo describe como un tipo de ciberataque contra modelos de lenguaje en el que se camuflan entradas maliciosas como prompts válidos para manipular el comportamiento del sistema. El objetivo puede ir desde forzar respuestas indebidas hasta provocar filtraciones de información o desviar una tarea, sin necesidad de explotar vulnerabilidades clásicas de software.
La raíz del problema es menos “mágica” de lo que parece y más estructural. Muchas aplicaciones con modelos de lenguaje combinan instrucciones del desarrollador y entradas del usuario como cadenas de texto en lenguaje natural, sin una separación rígida por tipo de dato. El modelo decide qué priorizar a partir de patrones aprendidos y del contexto del propio texto, no porque haya una frontera infalible entre “orden” y “contenido”. Si una instrucción externa se formula de manera convincente, puede ganar peso aunque no debería.
Cuando el contexto se vuelve inabarcable. El riesgo se amplifica cuando el agente no procesa un único mensaje, sino que recorre fuentes muy distintas dentro de un mismo encargo. OpenAI advierte de una superficie prácticamente ilimitada, correos y adjuntos, invitaciones de calendario, documentos compartidos, foros, redes sociales y páginas web arbitrarias. En ese recorrido, el agente puede encontrarse con instrucciones no fiables mezcladas con contenido legítimo. El usuario no siempre ve cada paso, pero el sistema sí lo consume, y ahí es donde la manipulación puede colarse.
Lo inquietante es que esto puede encajar en flujos de trabajo corrientes sin levantar una alarma evidente. La firma de IA describe un ejemplo en el que un atacante “siembra” una bandeja de entrada con un correo malicioso, y más tarde, cuando el usuario pide una tarea inocua, el agente lee ese mensaje durante la ejecución normal. En una dema, el resultado es extremo a propósito, el agente termina enviando un email de renuncia en lugar de redactar una respuesta automática. Todo esto gracias a un ataque externo.
Por qué no existe el blindaje perfecto. En ciberseguridad hay una idea ampliamente asumida, ningún sistema es completamente seguro, y OpenAI encuadra el prompt injection como un problema persistente. En su texto lo formula así: “Esperamos que los atacantes sigan adaptándose. La inyección de prompts, como las estafas y la ingeniería social en la web, difícilmente se resolverá por completo”. El objetivo, por tanto, no es prometer invulnerabilidad, sino elevar el coste del ataque y reducir el impacto cuando algo falla.
En Xataka
Hay 500 millones de de usuarios que podrían perfectamente actualizar a Windows 11. El problema es que no quieren
En ese contexto, los liderados por Sam Altman explican que ha desplegado una actualización de seguridad para el agente de Atlas motivada por una nueva clase de ataques descubierta mediante red teaming interno automatizado. La compañía afirma que la entrega incluye un modelo del agente entrenado de forma adversarial y salvaguardas reforzadas alrededor del sistema, con la intención de mejorar su resistencia frente a instrucciones no deseadas durante la navegación.
Lo que hacemos sigue importando. OpenAI recomienda usar el agente sin sesión iniciada cuando no sea necesario acceder a sitios con cuenta, y revisar con calma las solicitudes de confirmación en acciones sensibles, como enviar un correo o completar una compra. También aconseja dar instrucciones explícitas y acotadas, evitando encargos demasiado amplios que obliguen al agente a recorrer grandes volúmenes de contenido. No elimina el riesgo, pero reduce oportunidades de manipulación y ayuda a que los controles existentes funcionen como están diseñados.
Imágenes | OpenAI
En Xataka | Cada cuánto debemos cambiar TODAS nuestras contraseñas según tres expertos en ciberseguridad
-
La noticia
OpenAI acaba de asumir una verdad incómoda sobre los navegadores con IA: hay un tipo de ataque imposible de bloquear
fue publicada originalmente en
Xataka
por
Javier Marquez
.
OpenAI acaba de asumir una verdad incómoda sobre los navegadores con IA: hay un tipo de ataque imposible de bloquear
Los agentes en el navegador ya son una realidad
El prompt injection explota una debilidad estructural del lenguaje natural
El navegador está dejando de ser solo una ventana a Internet para convertirse en una herramienta que también opera dentro de la web. En el caso de Modo agente en ChatGPT Atlas, OpenAI explica que su agente ve páginas y puede realizar acciones, clics y pulsaciones de teclado dentro del navegador, igual que haría una persona. La promesa es clara, ayudar en flujos cotidianos con el mismo contexto y los mismos datos. La consecuencia también lo es, cuanto más poder concentramos en un agente, más atractivo se vuelve para quien busque manipularlo.
Qué es un prompt injection. En términos sencillos, un prompt injection es una técnica que busca colar instrucciones maliciosas dentro de contenidos aparentemente normales para que un sistema de inteligencia artificial las interprete como órdenes legítimas. IBM lo describe como un tipo de ciberataque contra modelos de lenguaje en el que se camuflan entradas maliciosas como prompts válidos para manipular el comportamiento del sistema. El objetivo puede ir desde forzar respuestas indebidas hasta provocar filtraciones de información o desviar una tarea, sin necesidad de explotar vulnerabilidades clásicas de software.
La raíz del problema es menos “mágica” de lo que parece y más estructural. Muchas aplicaciones con modelos de lenguaje combinan instrucciones del desarrollador y entradas del usuario como cadenas de texto en lenguaje natural, sin una separación rígida por tipo de dato. El modelo decide qué priorizar a partir de patrones aprendidos y del contexto del propio texto, no porque haya una frontera infalible entre “orden” y “contenido”. Si una instrucción externa se formula de manera convincente, puede ganar peso aunque no debería.
Cuando el contexto se vuelve inabarcable. El riesgo se amplifica cuando el agente no procesa un único mensaje, sino que recorre fuentes muy distintas dentro de un mismo encargo. OpenAI advierte de una superficie prácticamente ilimitada, correos y adjuntos, invitaciones de calendario, documentos compartidos, foros, redes sociales y páginas web arbitrarias. En ese recorrido, el agente puede encontrarse con instrucciones no fiables mezcladas con contenido legítimo. El usuario no siempre ve cada paso, pero el sistema sí lo consume, y ahí es donde la manipulación puede colarse.
Lo inquietante es que esto puede encajar en flujos de trabajo corrientes sin levantar una alarma evidente. La firma de IA describe un ejemplo en el que un atacante “siembra” una bandeja de entrada con un correo malicioso, y más tarde, cuando el usuario pide una tarea inocua, el agente lee ese mensaje durante la ejecución normal. En una dema, el resultado es extremo a propósito, el agente termina enviando un email de renuncia en lugar de redactar una respuesta automática. Todo esto gracias a un ataque externo.
Por qué no existe el blindaje perfecto. En ciberseguridad hay una idea ampliamente asumida, ningún sistema es completamente seguro, y OpenAI encuadra el prompt injection como un problema persistente. En su texto lo formula así: “Esperamos que los atacantes sigan adaptándose. La inyección de prompts, como las estafas y la ingeniería social en la web, difícilmente se resolverá por completo”. El objetivo, por tanto, no es prometer invulnerabilidad, sino elevar el coste del ataque y reducir el impacto cuando algo falla.
En ese contexto, los liderados por Sam Altman explican que ha desplegado una actualización de seguridad para el agente de Atlas motivada por una nueva clase de ataques descubierta mediante red teaming interno automatizado. La compañía afirma que la entrega incluye un modelo del agente entrenado de forma adversarial y salvaguardas reforzadas alrededor del sistema, con la intención de mejorar su resistencia frente a instrucciones no deseadas durante la navegación.
Lo que hacemos sigue importando. OpenAI recomienda usar el agente sin sesión iniciada cuando no sea necesario acceder a sitios con cuenta, y revisar con calma las solicitudes de confirmación en acciones sensibles, como enviar un correo o completar una compra. También aconseja dar instrucciones explícitas y acotadas, evitando encargos demasiado amplios que obliguen al agente a recorrer grandes volúmenes de contenido. No elimina el riesgo, pero reduce oportunidades de manipulación y ayuda a que los controles existentes funcionen como están diseñados.