Hay un tipo de ataque del que no se puede defender – La nación

El navegador ya no es sólo una ventana a Internet, sino que se está convirtiendo en una herramienta que también funciona en la web. En el caso del modo agente en ChatGPT Atlas, OpenAI explica que su agente muestra páginas y puede realizar acciones, clics y pulsaciones de teclas en el navegador, como una persona. La promesa es clara: ayudar en las operaciones diarias con el mismo contexto y datos. La consecuencia también es: cuanto más poder concentramos en un agente, más atractivo se vuelve para cualquiera que quiera manipularlo.
¿Qué es una inyección inmediata? En pocas palabras, la inyección rápida es una técnica que intenta inyectar instrucciones maliciosas en contenido aparentemente normal para que un sistema de inteligencia artificial las interprete como comandos legítimos. IBM lo describe como un tipo de ciberataque a modelos de lenguaje en el que la entrada maliciosa se disfraza de solicitudes válidas para manipular el comportamiento del sistema. El objetivo puede variar desde forzar respuestas inapropiadas hasta provocar fugas de información o redirigir una tarea sin tener que explotar las vulnerabilidades clásicas del software.
La raíz del problema es menos “mágica” de lo que parece, pero más estructural. Muchas aplicaciones de modelos de lenguaje combinan instrucciones del desarrollador y entradas del usuario como cadenas de texto en lenguaje natural, sin una separación estricta por tipo de datos. El modelo decide qué priorizar basándose en patrones aprendidos y el contexto del texto mismo, no porque exista un límite infalible entre “orden” y “contenido”. Si una instrucción externa está redactada de manera persuasiva, puede ganar peso aunque no debería hacerlo.
Cuando el contexto se vuelve insondable. El riesgo aumenta cuando el agente no procesa un solo mensaje, sino que atraviesa fuentes muy diferentes dentro de un mismo trabajo. OpenAI advierte una interfaz prácticamente ilimitada, correos electrónicos y archivos adjuntos, invitaciones de calendario, documentos compartidos, foros, redes sociales y cualquier sitio web. De esta forma, el agente puede encontrar instrucciones poco fiables mezcladas con contenido legítimo. El usuario no siempre ve cada paso, pero el sistema lo consume, y aquí es donde puede aparecer la manipulación.
Lo preocupante es que esto puede integrarse en los flujos de trabajo normales sin causar preocupaciones obvias. La firma de IA describe un ejemplo en el que un atacante “llena” una bandeja de entrada con un correo electrónico malicioso y luego el agente lee ese mensaje durante la ejecución normal cuando el usuario solicita una tarea inofensiva. En un caso, el resultado es intencionalmente extremo: el agente termina enviando un correo electrónico de cancelación en lugar de redactar una respuesta automática. Todo ello gracias a un ataque externo.
Por qué no existe el blindaje perfecto. Existe una creencia generalizada en ciberseguridad de que ningún sistema es completamente seguro y que los marcos OpenAI resultan en la infiltración como un problema continuo. En su texto lo expresa así: “Esperamos que los atacantes sigan adaptándose. Es poco probable que la introducción de solicitudes como estafas e ingeniería social en la web se resuelva por completo”. Por tanto, el objetivo no es prometer invulnerabilidad, sino aumentar el coste del ataque y reducir el impacto si algo falla.
Al respecto, los responsables de Sam Altman explican que han desplegado una actualización de seguridad para el agente Atlas basada en una nueva clase de ataques descubiertos por Equipos de red automatizado internamente. La compañía dice que la entrega incluye un modelo de agente capacitado para adversarios y mayores medidas de seguridad alrededor del sistema diseñadas para mejorar la resistencia a instrucciones no deseadas durante la navegación.
Lo que hacemos todavía importa. OpenAI recomienda utilizar el agente fuera de línea cuando no necesite acceder a sitios web con una cuenta y revisar cuidadosamente las solicitudes de verificación para acciones sensibles, como enviar un correo electrónico o completar una compra. También recomienda dar instrucciones explícitas y limitadas y evitar tareas demasiado amplias que obliguen al agente a examinar grandes cantidades de contenido. Esto no elimina el riesgo, pero reduce las oportunidades de manipulación y ayuda a garantizar que los controles existentes funcionen según lo previsto.
Imágenes | Abierto AI
En Xataka | ¿Con qué frecuencia TODOS deberíamos cambiar nuestras contraseñas, según tres expertos en ciberseguridad?