Agentes de IA devem ser tratados como sistemas não confiáveis: pesquisadores

Pesquisadores alertam que agentes de IA devem ser tratados como sistemas não confiáveis, caso contrário a segurança falhará

Last Updated:
Tokens de IA disparam enquanto Bitcoin estagna; NEAR lidera o rally
  • Pesquisadores do Google e da Meta dizem que a robustez dos modelos de IA sozinha não pode proteger sistemas agentes.
  • Onze ataques reais mostram que a injeção rápida contorna defesas em nível de modelo toda vez.
  • Os agentes precisam de separação de dados de instruções, sandboxing de privilégios mínimos e controle de fluxo de informação.

Um artigo de pesquisa de cientistas do Google, Meta, UC San Diego e várias universidades adotou uma posição direta que desafia a forma como a indústria atualmente aborda a segurança dos agentes de IA.

O artigo, intitulado Agent Security Is a Systems Problem, argumenta que tratar modelos de IA como a camada principal de segurança é fundamentalmente insuficiente. O modelo que alimenta qualquer agente deve, em vez disso, ser tratado como um componente não confiável, da mesma forma que um sistema operacional trata um processo externo, com a segurança sendo aplicada no nível do sistema ao seu redor.

“Esforços para aumentar a robustez dos modelos são insuficientes por si só”, escreveram os pesquisadores. “Devemos complementar os esforços existentes com técnicas do domínio da segurança de sistemas.”

Por que a abordagem atual continua falhando

Os pesquisadores analisaram onze ataques reais contra agentes de IA e encontraram o mesmo padrão todas as vezes. Os desenvolvedores confiaram que o modelo de IA se auto-policiaria. Os atacantes encontraram maneiras de contornar isso.

Dois casos documentados ilustram o problema. Um ataque de recurso de memória do ChatGPT permitiu que um atacante injetasse instruções maliciosas através de um documento comum, fazendo com que o sistema enviasse continuamente conversas de usuários para um servidor externo via uma URL de imagem invisível.

Um ataque ao Claude Code usou injeção de prompt oculta dentro de um arquivo de código para extrair chaves de API e exfilá-las por meio de uma consulta DNS usando o comando ping, que havia sido permitido sem aprovação humana.

Em ambos os casos, o modelo não tinha um mecanismo confiável para impedir o ataque porque as instruções maliciosas eram indistinguíveis das legítimas no nível do modelo.

Três princípios que a indústria está ignorando

Os pesquisadores identificaram três princípios centrais de segurança de décadas de sistemas que as implantações de IA consistentemente falham em implementar:

  • Separação de instruções e dados: Instruções confiáveis e dados externos não confiáveis fluem pelo mesmo fluxo de tokens sem separação, tornando possível a injeção rápida estruturalmente.
  • Sandboxing de menor privilégio: Agentes são rotineiramente implantados com acesso a comandos shell, sistemas de arquivos e APIs muito além do que qualquer tarefa específica exige.
  • Controle do fluxo de informação: Dados sensíveis podem vazar por canais indiretos mesmo quando existem controles de acesso.

O Problema Maior

Agentes de IA não têm julgamento nem instinto de autopreservação. Eles vão explorar todos os diretórios aos quais têm acesso na velocidade da máquina. Eles executarão qualquer instrução que chegar até eles, se o sistema permitir.

A infraestrutura de segurança construída em torno de atores humanos nunca foi projetada para isso. Até que seja reconstruído para atores máquinas, toda organização que implanta agentes com acesso a sistemas de produção corre um risco que não pode medir totalmente.

Relacionado: Foresight Ventures: Agentes de IA estão indo além dos chatbots para o comércio

Disclaimer: The information presented in this article is for informational and educational purposes only. The article does not constitute financial advice or advice of any kind. Coin Edition is not responsible for any losses incurred as a result of the utilization of content, products, or services mentioned. Readers are advised to exercise caution before taking any action related to the company.