
Interpreter yang aman mengikuti aliran data untuk memblokir tindakan berbahaya yang dipicu oleh teks yang dimanipulasi
Dalam konteksnya: Injeksi cepat adalah cacat yang melekat pada model bahasa besar, memungkinkan penyerang untuk mengalihkan perilaku AI dengan mengintegrasikan perintah jahat ke dalam teks entri. Sebagian besar pertahanan didasarkan pada pagar internal, tetapi para penyerang secara teratur menemukan cara untuk menyiasati mereka, yang membuat solusi ada paling baik. Sekarang Google berpikir dia mungkin telah menemukan solusi permanen.
Sejak chatbots pergi untuk masyarakat umum pada tahun 2022, cacat keamanan yang dikenal sebagai suntikan cepat telah menyiksa pengembang kecerdasan buatan. Masalahnya sederhana: model bahasa seperti chatgpt tidak dapat membedakan instruksi pengguna dan kontrol tersembunyi yang terkubur dalam teks yang mereka tangani. Model mengasumsikan bahwa semua teks yang dimasukkan (atau dipulihkan) dapat diandalkan dan memperlakukannya seperti itu, yang memungkinkan para aktor buruk untuk memasukkan instruksi jahat dalam permintaan mereka. Masalah ini bahkan lebih serius sekarang daripada perusahaan yang mengintegrasikan AI ini ke dalam pelanggan pesan kami dan perangkat lunak lain yang mungkin berisi informasi sensitif.
DeepMind de Google telah mengembangkan pendekatan yang sangat berbeda yang disebut unta (kapasitas untuk pembelajaran otomatis). Alih-alih meminta kecerdasan buatan pada swadaya-politis-yang telah terbukti sebagai model yang tidak dapat diandalkan memperlakukan model bahasa besar (LLM) sebagai komponen yang tidak dapat diandalkan di dalam sistem yang aman. Ini menciptakan batasan ketat antara permintaan pengguna, konten yang tidak dapat diandalkan seperti email atau halaman web, dan tindakan yang harus dilakukan oleh asisten AI.
Camel bergantung pada beberapa dekade prinsip keamanan perangkat lunak yang terbukti, termasuk kontrol akses, pemantauan aliran data dan prinsip hak istimewa terkecil. Alih -alih mengandalkan AI untuk menangkap semua instruksi jahat, ini membatasi apa yang dapat dilakukan sistem dengan informasi yang diprosesnya.
Begini cara kerjanya. Camel menggunakan dua model bahasa yang berbeda: “istimewa” (p-llm) yang memberikan tindakan seperti mengirim email, dan “karantina” (Q-llm) yang tidak membaca dan menganalisis konten yang tidak dapat diandalkan. P-LLM tidak dapat melihat email atau dokumen mentah-hanya menerima data terstruktur, seperti “email = get_last_email ()”. Q-LLM, di sisi lain, tidak memiliki akses ke alat atau ke memori, jadi bahkan jika penyerang menginjaknya, ia tidak dapat mengambil ukuran apa pun.
Semua tindakan menggunakan kode – khususnya versi python yang dilucuti – dan dieksekusi dalam penerjemah yang aman. Interpreter ini melacak asal dari setiap elemen data, mengikuti jika berasal dari konten yang tidak dapat diandalkan. Jika mendeteksi bahwa tindakan yang diperlukan menyiratkan variabel yang berpotensi sensitif, seperti mengirim pesan, ia dapat memblokir tindakan atau meminta konfirmasi dari pengguna.
Simon Willison, pengembang yang menemukan istilah “injeksi cepat” pada tahun 2022, memuji Camel sebagai “atenuasi kredibel pertama” yang tidak didasarkan pada kecerdasan buatan yang lebih besar tetapi lebih meminjam pelajaran teknik keamanan tradisional. Dia mencatat bahwa sebagian besar model saat ini tetap rentan karena mereka menggabungkan petunjuk pengguna dan input yang tidak dapat diandalkan dalam memori jangka pendek atau jendela konteks yang sama. Konsepsi ini membahas semua teks secara setara – bahkan jika berisi instruksi jahat.
Unta masih belum sempurna. Ini mewajibkan pengembang untuk menulis dan mengelola kebijakan keamanan, dan dorongan konfirmasi yang sering dapat membuat pengguna frustrasi. Namun, selama tes awal, ia bekerja dengan baik melawan skenario serangan dunia nyata. Dia juga dapat membantu membela diri dari ancaman inisiat dan alat jahat dengan memblokir akses yang tidak sah ke data atau pesanan sensitif.
Jika Anda suka membaca detail teknis yang tidak jelas, DeepMind telah menerbitkan penelitian panjangnya tentang referensi akademis Arxiv de Cornell.