- Google y los investigadores de Meta afirman que la robustez de los modelos de IA por sí sola no puede proteger los sistemas agentes.
- Once ataques reales muestran que la inyección inmediata evita defensas a nivel de modelo cada vez.
- Los agentes necesitan separación de datos de instrucciones, sandboxing de privilegios mínimos y control del flujo de información.
Un artículo de investigación de científicos de Google, Meta, UC San Diego y varias universidades ha adoptado una postura directa que desafía la forma en que la industria aborda actualmente la seguridad de agentes de IA.
El artículo, titulado Seguridad de Agentes es un Problema de Sistemas, sostiene que tratar los modelos de IA como la capa principal de seguridad es fundamentalmente insuficiente. El modelo que alimenta cualquier agente debe tratarse en cambio como un componente no confiable, de la misma manera que un sistema operativo trata un proceso externo, con la seguridad reforzada a nivel de sistema que lo rodea.
«Los esfuerzos para aumentar la robustez del modelo son insuficientes por sí solos», escribieron los investigadores. «Debemos complementar los esfuerzos existentes con técnicas del ámbito de la seguridad de sistemas.»
Por qué el enfoque actual sigue fracasando
Los investigadores analizaron once ataques reales contra agentes de IA y encontraron el mismo patrón cada vez. Los desarrolladores confiaron en que el modelo de IA se controlara a sí mismo. Los atacantes encontraron la manera de sortearlo.
Dos casos documentados ilustran el problema. Un ataque a la función de memoria de ChatGPT permitió a un atacante inyectar instrucciones maliciosas a través de un documento ordinario, haciendo que el sistema enviara continuamente conversaciones de usuario a un servidor externo mediante una URL de imagen invisible.
Un ataque con código Claude utilizó la inyección de prompt oculta dentro de un archivo de código para extraer claves API y exfiltrarlas mediante una consulta DNS usando el comando ping, que había sido permitido sin la aprobación humana.
En ambos casos, el modelo no tenía un mecanismo fiable para detener el ataque porque las instrucciones maliciosas eran indistinguibles de las legítimas a nivel de modelo.
Tres principios que la industria está ignorando
Los investigadores identificaron tres principios fundamentales de seguridad de décadas de seguridad de sistemas que los despliegues de IA consistentemente no logran implementar:
- Separación de instrucciones y datos: Las instrucciones confiables y los datos externos no confiables fluyen a través del mismo flujo de token sin separación, haciendo posible la inyección rápida estructuralmente.
- Sandboxing con menos privilegios: Los agentes se despliegan rutinariamente con acceso a comandos de shell, sistemas de archivos y APIs mucho más allá de lo que requiere cualquier tarea específica.
- Control del flujo de información: Los datos sensibles pueden filtrarse a través de canales indirectos incluso cuando existen controles de acceso.
El problema mayor
Los agentes de IA no juzgan ni instinto de autopreservación. Explorarán todos los directorios a los que tengan acceso a velocidad de máquina. Ejecutarán cualquier instrucción que les llegue si el sistema lo permite.
La infraestructura de seguridad construida alrededor de actores humanos nunca fue diseñada para esto. Hasta que no se reconstruya para actores de máquinas, toda organización que despliega agentes con acceso a sistemas de producción asume un riesgo que no puede medir completamente.
Relacionado: Foresight Ventures: Los agentes de IA están avanzando más allá de los chatbots hacia el comercio
Disclaimer: The information presented in this article is for informational and educational purposes only. The article does not constitute financial advice or advice of any kind. Coin Edition is not responsible for any losses incurred as a result of the utilization of content, products, or services mentioned. Readers are advised to exercise caution before taking any action related to the company.