- Исследователи Google и Meta утверждают, что одна только устойчивость модели ИИ не может обеспечить безопасность агентных систем.
- Одиннадцать реальных атак показывают, что prompt injection обходит защиту на уровне модели каждый раз.
- Агентам требуется разделение данных инструкций, песочница с наименьшими привилегиями и управление информационными потоками.
Научная статья учёных из Google, Meta, UC San Diego и нескольких университетов заняла прямую позицию, ставящую под сомнение нынешний подход отрасли к безопасности агентов ИИ.
Статья под названием «Безопасность агента — это системная проблема» утверждает , что рассматривать модели ИИ как основной уровень безопасности по сути недостаточно. Модель, управляющая любым агентом, должна рассматриваться как ненадёжный компонент, так же как операционная система относится к внешнему процессу, с обеспечением безопасности на уровне системы вокруг неё.
«Усилия по повышению устойчивости модели сами по себе недостаточны», — написали исследователи. «Мы должны дополнить существующие усилия методами из области системной безопасности.»
Почему нынешний подход постоянно терпит неудачи
Исследователи проанализировали одиннадцать реальных атак на агентов ИИ и каждый раз обнаружили одну и ту же закономерность. Разработчики доверяли модели ИИ контролировать себя. Нападавшие нашли способы обойти это.
Два задокументированных случая иллюстрируют проблему. Атака на функции памяти ChatGPT позволяла злоумышленнику вводить вредоносные инструкции через обычный документ, заставляя систему постоянно отправлять пользовательские переписки на внешний сервер через невидимый URL изображения.
Атака Claude Code использовала инъекцию prompt, скрытую внутри файла кода, чтобы извлечь API-ключи и вывести их через DNS-запрос с помощью команды ping, что было разрешено без разрешения человека.
В обоих случаях модель не имела надёжного механизма для остановки атаки, поскольку вредоносные инструкции были неотличимы от легитимных на уровне модели.
Три принципа, которые индустрия игнорирует
Исследователи выделили три основных принципа безопасности на протяжении десятилетий системной безопасности, которые внедрения ИИ постоянно не реализуют:
- Разделение инструкций и данных: Доверенные инструкции и ненадёжные внешние данные проходят через один и тот же поток токенов без разделения, что делает структурно возможным инъекцию prompt.
- Песочница с наименьшими привилегиями: Агенты регулярно развёртываются с доступом к командам shell, файловым системам и API, значительно превосходящим требования любой конкретной задачи.
- Управление информационным потоком: Чувствительные данные могут утекать по косвенным каналам даже при наличии контроля доступа.
Большая проблема
Агенты ИИ не имеют суждения и инстинкта самосохранения. Они будут исследовать каждую папку, к которой имеют доступ, на скорости машины. Они выполняют любую инструкцию, которая к ним попадёт, если система это позволит.
Инфраструктура безопасности, построенная вокруг человеческих акторов, никогда не предназначалась для этого. Пока она не будет восстановлена для машинных акторов, каждая организация, развертывающая агентов с доступом к производственным системам, несёт риск, который не может полностью измерить.
Связано: Foresight Ventures: ИИ-агенты выходят за рамки чат-ботов в коммерцию
Disclaimer: The information presented in this article is for informational and educational purposes only. The article does not constitute financial advice or advice of any kind. Coin Edition is not responsible for any losses incurred as a result of the utilization of content, products, or services mentioned. Readers are advised to exercise caution before taking any action related to the company.