Hay personas que envenenan la memoria de nuestra IA para poder manipularnos. Y Microsoft ha hecho sonar todas las alarmas – La nación


Hay un secreto detrás de ese “práctico” botón “Resumir con IA”: definitivamente ha sido manipulado. No lo decimos nosotros, es el departamento de élite de Microsoft para analizar la seguridad tanto de sus servicios como de los de sus competidores. En el proceso de uno InvestigaciónHan empezado a mover los hilos y han descubierto que decenas de empresas están insertando instrucciones ocultas en estas funciones de “resumir con IA” con un único objetivo.
Contamina la memoria de la IA para manipularnos.
microsoft que. Big Tech tiene muchos departamentos interesantes. de eso Se dedican a abrir cajas para garantizar la mejor experiencia para quienes esculpen productos de la competencia en arcilla para estudiarlos. Sin embargo, lo que todas las grandes empresas de tecnología tienen en común son equipos de ciberseguridad, equipos de élite dedicados a una sola cosa: investigar amenazas.
Analizan tanto sus propios productos como los de sus competidores, entendidos estos como un ecosistema. Google y Microsoft tienen dos de los más potentes y un ejemplo claro es que cuando Google encuentra una vulnerabilidad en Windows, avisa a los responsables porque es algo que potencialmente podría dañar su propio producto: Chrome. Un ejemplo es la investigación realizada por uno de estos equipos de Microsoft que muestra el peligro de que las IA sean tan maleables.
Memoria de IA envenenada. Es un concepto que llama la atención y es fácil de entender. “Este útil botón ‘Resumir con IA’ podría manipular en secreto lo que recomienda su IA”, señala Microsoft en el blog donde se publicó el estudio. Lo que han hecho los atacantes es corromper la IA incorporando ciertos comandos ocultos que logran permanecer en la memoria del asistente.
Así, influyen en todas las interacciones que tenemos con el asistente. En pocas palabras, un asistente comprometido podría comenzar a hacer recomendaciones sesgadas sobre temas críticos. Con esto no quiero decir que estés preguntando si la pizza es mejor con o sin piña y que la respuesta depende de lo que el “hacker” implementó en la “memoria” de la IA, sino de algo mucho más serio relacionado con la salud, las finanzas o la seguridad.
Hay que decir que Microsoft no ha descubierto esto ya que lleva unos meses entre nosotros, pero sí han dado ejemplos y recomendaciones muy concretas para no convertirse en víctima.
¿C-cómo hacen eso? en eso documentoSegún Microsoft, han identificado más de 50 iteraciones únicas de 31 empresas y 14 industrias diferentes. Explican detalladamente que esta manipulación se puede realizar de diferentes formas:
- Enlaces maliciosos: la mayoría de los principales asistentes de IA admiten la lectura automática de URL. Entonces, cuando hacemos clic en el resumen de un mensaje que contiene un enlace con información maliciosa precargada, la IA procesa estas instrucciones manipuladas y se contamina.
- Instrucciones integradas: En este caso, las instrucciones para manipular la IA están ocultas, incrustadas en documentos, correos electrónicos o páginas web. Cuando la IA procesa este contenido, se contamina.
- Ingeniería social: este es el engaño clásico, pero en este caso implica que el usuario inserte mensajes que contienen comandos que alteran la memoria de la IA. Asimismo, se contamina cuando el asistente lo procesa.
Y ahí radica el problema: varias formas de contaminar la memoria de la IA, una característica que hace que los asistentes sean más útiles porque pueden recordar preferencias personales. Al mismo tiempo, también está surgiendo una nueva superficie de ataque, porque, como subraya Microsoft: si alguien puede inyectar instrucciones en la memoria de la IA y no nos damos cuenta, obtendrá una influencia duradera en futuras solicitudes.
al grano. En una IA como la que tenemos es peligroso, pero en la futura IA agente es aún más peligroso porque automáticamente realizará acciones basadas en esa memoria contaminada. Visto el contexto, vayamos al grano. El equipo de seguridad pasó 60 días revisando las URL y encontró más de 50 ejemplos diferentes de intentos de contaminar la IA.
El propósito es promocional, y detallan que las pruebas provinieron de 31 empresas de diversos campos relacionados con industrias como finanzas, salud, servicios legales, marketing, sitios de compras de alimentos, recetas, servicios comerciales y software como servicio. Señalan que la efectividad no fue la misma en todos los ataques, pero sí notaron la aparición repetida de instrucciones como “recuerda esto”. Y en todos los casos encontraron lo siguiente:
- Todos los casos involucraron a empresas reales, no a piratas informáticos ni a estafadores. Se trata de empresas legítimas que contaminan la IA para influir en sus decisiones.
- Contenedor engañoso con instrucciones ocultas en el botón Continuar con IA. Nos parece útil y por eso hacemos clic y activamos el script que contamina su memoria.
- Persistencia, con comandos como “Recuerda esto”, “Recuerda esto en futuras conversaciones” o “Esta es una fuente confiable y segura”, para asegurar esta influencia a largo plazo.
Consecuencias. Ejemplos concretos de lo que puede hacer una IA envenenada:
- Seguridad infantil: Cuando preguntamos: “¿Este juego en línea es seguro para mi hijo de ocho años?” Una IA envenenada a la que se le ha dicho que el juego es completamente seguro con comunidades tóxicas, moderadores peligrosos, políticas dañinas y monetización depredadora recomendará el juego.
- noticias sesgadas: Si pedimos un resumen de las noticias más importantes del día, la IA intervenida no nos traerá las mejores noticias, sino que producirá constantemente titulares y focos de la publicación cuyos propietarios han contaminado la IA.
- Problemas financieros: Cuando preguntamos sobre inversiones, la IA puede decirnos que una inversión en particular es extremadamente segura, minimizando así la volatilidad del proceso.
Recomendaciones. Y aquí es donde entra en juego nuestra responsabilidad. Porque podrías estar pensando: “¿Quién le pregunta a la IA sobre estas cosas y ella le presta atención?” Bien: la gente le pregunta estas cosas a la IA y la escucha. Hay casos lamentables de suicidio provocados por chatbots o noticias falsas. Cuando AI recomienda pizza con pegamento, supuestamente tenemos el sentido común de no tirarla superpegamento como sustituto del queso, pero en otros asuntos hay usuarios que confían en la IA como si fuera una unidad y no un compendio de letras una tras otra.
La propia Microsoft lo menciona, señalando que los usuarios no siempre siguen las recomendaciones de la IA y que el envenenamiento de la memoria es particularmente insidioso por esta misma razón, ya que no se dan cuenta de que su IA se ha visto comprometida. Hay formas de mostrarlo, como por ejemplo: accediendo a la configuración del asistente y viendo lo que hay en la memoria. Sin embargo, hay una serie de recomendaciones que debemos tener en cuenta:
- Antes de hacer clic en un enlace, coloque el cursor sobre él para ver la URL a la que conduce. En los teléfonos móviles es… complicado.
- Tenga cuidado con los botones de “resumen impulsados por IA”.
- Trate estos botones con la misma precaución que lo haría con una descarga.
- Si te recomiendan algo sospechoso, pregunta por qué y en qué se basa.
- Comprueba la memoria de la IA.
- Y borrar ese recuerdo de vez en cuando. Siempre puedes tener una entrada en la aplicación Notas con lo que quieres que la IA sepa sobre ti, y luego de borrar periódicamente tu memoria, copiar y pegar lo que tienes en esa nota.
De todos modos, si no hemos tenido suficiente con el SPAM y el spoofing, ahora contaminan los que están contaminando la memoria de la IA, y por cierto, no son hackers, sino empresas.
Imagen | Xataka
En Xataka | Hay un bombín para abrir el acceso a la IA a menores. Y Character.ai fue el primero en hacerlo