Agen AI Harus Diperlakukan Sebagai Sistem yang Tidak Tepercaya: Peneliti

Para peneliti memperingatkan agen AI harus diperlakukan sebagai sistem yang tidak tepercaya atau keamanan akan gagal

Last Updated:
Token AI melonjak saat Bitcoin terhenti; NEAR Memimpin Reli
  • Peneliti Google dan Meta mengatakan ketahanan model AI saja tidak dapat mengamankan sistem agen.
  • Sebelas serangan dunia nyata menunjukkan injeksi cepat melewati pertahanan tingkat model setiap saat.
  • Agen memerlukan pemisahan data instruksi, sandbox hak istimewa paling rendah, dan kontrol aliran informasi.

Sebuah makalah penelitian dari para ilmuwan di Google, Meta, UC San Diego, dan beberapa universitas telah mengambil posisi langsung yang menantang bagaimana industri saat ini mendekati keamanan agen AI.

Makalah, berjudul Agent Security Is a Systems Problem, berpendapat bahwa memperlakukan model AI sebagai lapisan keamanan utama pada dasarnya tidak cukup. Model yang memberi daya pada agen apa pun harus diperlakukan sebagai komponen yang tidak tepercaya, dengan cara yang sama sistem operasi memperlakukan proses eksternal, dengan keamanan yang ditegakkan di tingkat sistem di sekitarnya.

“Upaya untuk meningkatkan ketahanan model tidak cukup dengan sendirinya,” tulis para peneliti. “Kita harus melengkapi upaya yang ada dengan teknik dari domain keamanan sistem.”

Mengapa Pendekatan Saat Ini Terus Gagal

Para peneliti menganalisis sebelas serangan dunia nyata terhadap agen AI dan menemukan pola yang sama setiap saat. Pengembang mempercayai model AI untuk mengawasi dirinya sendiri. Penyerang menemukan cara untuk mengatasinya.

Dua kasus yang didokumentasikan menggambarkan masalah tersebut. Serangan fitur memori ChatGPT memungkinkan penyerang untuk menyuntikkan instruksi berbahaya melalui dokumen biasa, menyebabkan sistem terus mengirim percakapan pengguna ke server eksternal melalui URL gambar yang tidak terlihat.

Serangan Claude Code menggunakan injeksi prompt yang tersembunyi di dalam file kode untuk mengekstrak kunci API dan mengeksfiltrasinya melalui kueri DNS menggunakan perintah ping, yang telah diizinkan tanpa persetujuan manusia.

Dalam kedua kasus, model tidak memiliki mekanisme yang dapat diandalkan untuk menghentikan serangan karena instruksi berbahaya tidak dapat dibedakan dari yang sah di tingkat model.

Tiga Prinsip yang Diabaikan Industri

Para peneliti mengidentifikasi tiga prinsip keamanan inti dari keamanan sistem selama beberapa dekade yang secara konsisten gagal diterapkan oleh penerapan AI:

  • Instruksi dan pemisahan data: Instruksi tepercaya dan data eksternal yang tidak tepercaya mengalir melalui aliran token yang sama tanpa pemisahan, memungkinkan injeksi cepat secara struktural.
  • Sandboxing hak istimewa paling rendah: Agen secara rutin digunakan dengan akses ke perintah shell, sistem file, dan API yang jauh melampaui apa yang diperlukan tugas tertentu.
  • Kontrol aliran informasi: Data sensitif dapat bocor melalui saluran tidak langsung bahkan ketika ada kontrol akses.

Masalah yang Lebih Besar

Agen AI tidak memiliki penilaian dan tidak memiliki naluri pelestarian diri. Mereka akan menjelajahi setiap direktori yang dapat mereka akses dengan kecepatan mesin. Mereka akan menjalankan instruksi apa pun yang sampai kepada mereka jika sistem mengizinkannya.

Infrastruktur keamanan yang dibangun di sekitar aktor manusia tidak pernah dirancang untuk ini. Sampai dibangun kembali untuk pelaku mesin, setiap organisasi yang mengerahkan agen dengan akses ke sistem produksi membawa risiko yang tidak dapat diukur sepenuhnya.

Terkait: Foresight Ventures: Agen AI Bergerak Melampaui Chatbots Ke Perdagangan

Disclaimer: The information presented in this article is for informational and educational purposes only. The article does not constitute financial advice or advice of any kind. Coin Edition is not responsible for any losses incurred as a result of the utilization of content, products, or services mentioned. Readers are advised to exercise caution before taking any action related to the company.