- Google- und Meta-Forscher sagen, dass die Robustheit des KI-Modells allein keine agentischen Systeme sichern kann.
- Elf reale Angriffe zeigen, dass prompte Injektion jedes Mal modellnahe Verteidigungen umgeht.
- Agenten benötigen eine Trennung von Anweisungsdaten, Least-Privilege-Sandboxing und Informationsflusskontrolle.
Eine Forschungsarbeit von Wissenschaftlern von Google, Meta, UC San Diego und mehreren Universitäten hat eine direkte Position eingenommen, die die aktuelle Herangehensweise der Branche an die Sicherheit von KI-Agenten infrage stellt.
Der Artikel mit dem Titel Agent Security Is a Systems Problem argumentiert , dass die Behandlung von KI-Modellen als primäre Sicherheitsschicht grundsätzlich unzureichend ist. Das Modell, das einen Agenten antreibt, muss stattdessen als nicht vertrauenswürdige Komponente behandelt werden, ähnlich wie ein Betriebssystem einen externen Prozess behandelt, wobei die Sicherheit auf Systemebene darum herum durchgesetzt wird.
„Bemühungen, die Modell-Robustheit zu erhöhen, reichen allein nicht aus“, schrieben die Forscher. „Wir müssen bestehende Bemühungen mit Techniken aus dem Bereich Systemsicherheit ergänzen.“
Warum der derzeitige Ansatz immer wieder scheitert
Die Forscher analysierten elf reale Angriffe auf KI-Agenten und fanden jedes Mal dasselbe Muster. Die Entwickler vertrauten darauf, dass das KI-Modell sich selbst überwacht. Die Angreifer fanden Wege daran, es zu umgehen.
Zwei dokumentierte Fälle verdeutlichen das Problem. Ein ChatGPT-Speicherfeature-Angriff ermöglichte es einem Angreifer, bösartige Anweisungen durch ein gewöhnliches Dokument einzuschleusen, wodurch das System kontinuierlich Benutzerkonversationen über eine unsichtbare Bild-URL an einen externen Server weiterleitete.
Ein Claude Code-Angriff nutzte Prompt-Injection, die in einer Codedatei verborgen war, um API-Schlüssel zu extrahieren und sie über eine DNS-Abfrage mit dem Ping-Befehl zu exfiltrieren, was ohne menschliche Zustimmung erlaubt war.
In beiden Fällen hatte das Modell keinen zuverlässigen Mechanismus, um den Angriff zu stoppen, da die bösartigen Anweisungen auf Modellebene nicht von legitimen zu unterscheiden waren.
Drei Prinzipien, die die Branche ignoriert
Die Forscher identifizierten drei zentrale Sicherheitsprinzipien aus jahrzehntelanger Systemsicherheit, die KI-Implementierungen konsequent nicht umsetzen:
- Instruktions- und Datentrennung: Vertrauenswürdige Anweisungen und nicht vertrauenswürdige externe Daten fließen durch denselben Tokenstrom ohne Trennung, was eine prompte Injektion strukturell ermöglicht.
- Least-Privilege-Sandboxing: Agenten werden routinemäßig mit Zugriff auf Shell-Befehle, Dateisysteme und APIs bereitgestellt, die weit über das hinausgehen, was eine bestimmte Aufgabe erfordert.
- Informationsflusskontrolle: Sensible Daten können über indirekte Kanäle durchsickern, selbst wenn Zugriffskontrollen vorhanden sind.
Das größere Problem
KI-Agenten haben kein Urteil und keinen Selbsterhaltungsinstinkt. Sie erkunden jedes Verzeichnis, auf das sie Zugriff haben, mit Maschinengeschwindigkeit. Sie führen jede Instruktion aus, die sie erreicht, wenn das System es erlaubt.
Die Sicherheitsinfrastruktur, die um menschliche Akteure herum gebaut wurde, war nie dafür ausgelegt. Bis sie für Maschinenakteure neu aufgebaut ist, trägt jede Organisation, die Agenten mit Zugang zu Produktionssystemen einsetzt, ein Risiko, das sie nicht vollständig messen kann.
Verwandt: Foresight Ventures: KI-Agenten gehen über Chatbots hinaus in den Handel
Disclaimer: The information presented in this article is for informational and educational purposes only. The article does not constitute financial advice or advice of any kind. Coin Edition is not responsible for any losses incurred as a result of the utilization of content, products, or services mentioned. Readers are advised to exercise caution before taking any action related to the company.