Peretas sekarang menggunakan AI untuk memecahkan AI – dan itu berhasil

Hanya masalah waktu sebelum peretas mulai menggunakan kecerdasan buatan untuk menyerang kecerdasan buatan – dan sekarang waktu telah tiba. Terobosan penelitian baru telah membuat serangan injeksi cepat AI lebih cepat, lebih mudah, dan sangat efektif, bahkan terhadap sistem yang seharusnya aman seperti Google Gemini.

Serangan injeksi yang cepat telah menjadi salah satu cara paling dapat diandalkan untuk memanipulasi model bahasa besar (LLM). Dengan menyelinap instruksi jahat ke dalam teks yang dibaca AI – seperti komentar di blok kode atau teks tersembunyi di halaman web – serangan bisa mendapatkan model untuk mengabaikan aturan aslinya.

Itu bisa berarti bocor data pribadi, memberikan jawaban yang salah, atau melaksanakan perilaku yang tidak diinginkan lainnya. Namun, tangkapannya adalah bahwa serangan injeksi yang cepat biasanya membutuhkan banyak uji coba manual dan kesalahan untuk mendapatkan yang benar, terutama untuk model berbobot tertutup seperti GPT-4 atau Gemini, di mana pengembang tidak dapat melihat kode yang mendasari atau data pelatihan.

Tetapi teknik baru yang disebut perubahan yang menyenangkan itu. Dikembangkan oleh tim peneliti universitas, metode ini menggunakan API fine-tuning Google sendiri untuk Gemini untuk membuat suntikan prompt dengan tingkat tinggi-secara otomatis. Temuan peneliti saat ini tersedia dalam laporan pracetak.

Dengan menyalahgunakan antarmuka pelatihan Gemini, mencari-cari “awalan” dan “sufiks” terbaik untuk membungkus prompt jahat penyerang, secara dramatis meningkatkan peluang bahwa itu akan diikuti. Dan hasilnya berbicara sendiri.

Dalam pengujian, tuning yang menyenangkan mencapai tingkat keberhasilan hingga 82 persen pada beberapa model Gemini, dibandingkan dengan di bawah 30 persen dengan serangan tradisional. Ini bekerja dengan mengeksploitasi petunjuk halus dalam proses penyempurnaan-seperti bagaimana model bereaksi terhadap kesalahan pelatihan-dan mengubahnya menjadi umpan balik yang mempertajam serangan. Anggap saja sebagai sistem rudal yang dipandu AI untuk injeksi yang cepat.

Yang lebih meresahkan, serangan dikembangkan untuk satu versi Gemini yang ditransfer dengan mudah ke orang lain. Ini berarti penyerang tunggal berpotensi mengembangkan satu prompt yang sukses dan menggunakannya di berbagai platform. Dan karena Google menawarkan API fine-tuning ini secara gratis, biaya pemasangan serangan seperti itu serendah $ 10 dalam waktu komputasi.

Google telah mengakui ancaman tersebut tetapi belum mengomentari apakah ia berencana untuk mengubah fitur yang menyempurnakannya. Para peneliti di balik penyiaran yang menyenangkan bahwa mempertahankan serangan terhadap serangan semacam ini tidak sederhana-melepas data kunci dari proses pelatihan akan membuat alat ini kurang berguna bagi pengembang. Tetapi meninggalkannya memudahkan penyerang untuk dieksploitasi.

Satu hal yang pasti. Serangan injeksi cepat AI seperti ini adalah tanda bahwa permainan telah memasuki fase baru – di mana AI bukan hanya target, tetapi juga senjata.