- Google et les chercheurs de Meta affirment que la robustesse des modèles d’IA seule ne peut pas sécuriser les systèmes agentiques.
- Onze attaques réelles montrent que l’injection prompte contourne à chaque fois les défenses au niveau du modèle.
- Les agents ont besoin de séparation des données d’instructions, de sandboxing de privilèges minimaux et de contrôle du flux d’information.
Un article de recherche de scientifiques de Google, Meta, UC San Diego et plusieurs universités a pris une position directe qui remet en question la manière dont l’industrie aborde actuellement la sécurité des agents IA.
L’article, intitulé Agent Security Is a Systems Problem, soutient que traiter les modèles d’IA comme la couche de sécurité principale est fondamentalement insuffisant. Le modèle alimentant un agent doit plutôt être traité comme un composant non fiable, de la même manière qu’un système d’exploitation traite un processus externe, avec une sécurité renforcée au niveau du système qui l’entoure.
« Les efforts pour augmenter la robustesse des modèles sont insuffisants en eux-mêmes », ont écrit les chercheurs. « Nous devons compléter les efforts existants par des techniques issues du domaine de la sécurité des systèmes. »
Pourquoi l’approche actuelle échoue sans cesse
Les chercheurs ont analysé onze attaques réelles contre des agents d’IA et ont trouvé le même schéma à chaque fois. Les développeurs faisaient confiance au modèle d’IA pour se contrôler lui-même. Les assaillants trouvaient des moyens de contourner cela.
Deux cas documentés illustrent le problème. Une attaque de fonction mémoire ChatGPT a permis à un attaquant d’injecter des instructions malveillantes via un document ordinaire, ce qui a poussé le système à envoyer continuellement des conversations utilisateur à un serveur externe via une URL d’image invisible.
Une attaque Code Claude utilisait l’injection de prompt cachée dans un fichier de code pour extraire les clés API et les exfiltrer via une requête DNS utilisant la commande ping, ce qui avait été autorisé sans approbation humaine.
Dans les deux cas, le modèle ne disposait d’aucun mécanisme fiable pour stopper l’attaque car les instructions malveillantes étaient indiscernables des instructions légitimes au niveau du modèle.
Trois principes que l’industrie ignore
Les chercheurs ont identifié trois principes fondamentaux de sécurité issus de décennies de sécurité des systèmes que les déploiements de l’IA échouent systématiquement à mettre en œuvre :
- Séparation des instructions et des données : Les instructions de confiance et les données externes non fiables circulent dans le même flux de jetons sans séparation, rendant l’injection rapide structurellement possible.
- Bac à sable de moindre privilège : Les agents sont régulièrement déployés avec un accès aux commandes shell, aux systèmes de fichiers et aux API bien au-delà de ce que toute tâche spécifique exige.
- Contrôle du flux d’information : Les données sensibles peuvent fuir par des canaux indirects même lorsque des contrôles d’accès existent.
Le problème plus important
Les agents IA n’ont aucun jugement ni instinct de survie. Ils exploreront chaque annuaire auquel ils ont accès à la vitesse de la machine. Ils exécuteront toute instruction qui leur parviendra si le système le permet.
L’infrastructure de sécurité construite autour d’acteurs humains n’a jamais été conçue pour cela. Tant qu’il n’est pas reconstruit pour les acteurs machines, chaque organisation déployant des agents ayant accès aux systèmes de production comporte un risque qu’elle ne peut pas mesurer pleinement.
En lien avec : Foresight Ventures : Les agents IA dépassent les chatbots pour se lancer dans le commerce
Disclaimer: The information presented in this article is for informational and educational purposes only. The article does not constitute financial advice or advice of any kind. Coin Edition is not responsible for any losses incurred as a result of the utilization of content, products, or services mentioned. Readers are advised to exercise caution before taking any action related to the company.