Sejak ChatGPT menjadi viral pada akhir 2022, kami telah melihat banyak penelitian yang mempelajari bagaimana model AI berperilaku. Para peneliti ingin melihat bagaimana mereka beroperasi, apakah mereka menipu untuk tugas atau berbohong untuk bertahan hidup.
Ini sama pentingnya dengan penelitian untuk menciptakan model yang lebih baik dan lebih pintar. Kita tidak dapat mencapai versi kecerdasan buatan yang lebih maju sebelum kita dapat memahami AIS untuk memastikan mereka tetap selaras dengan kepentingan kita.
Sebagian besar studi ini melibatkan eksperimen mengenai satu model AI pada satu waktu dan mempelajari perilakunya. Tapi kami telah mencapai titik di mana interaksi manusia-AI tidak akan menjadi satu-satunya jenis interaksi yang melibatkan kecerdasan buatan.
Kami berada di masa -masa awal agen AI, model chatgpt dan Gemini yang lebih canggih yang dapat melakukan hal -hal untuk pengguna, seperti menjelajahi web, berbelanja online, dan pengkodean. Tidak dapat dihindari, AIS ini akhirnya akan bertemu dengan model AI lainnya, dan model -model ini harus bersosialisasi dengan cara yang aman.
Itu adalah premis studi baru dari City, St George's, University of London, dan Universitas IT Kopenhagen. AIS yang berbeda pasti akan berinteraksi, dan para peneliti ingin melihat bagaimana interaksi seperti itu akan berjalan.
Mereka menyusun game sederhana yang meniru permainan kencan kencang manusia. Beberapa AI diberi tugas sederhana: untuk memilih nama huruf tunggal yang umum. Hanya butuh AIS sekitar 15 putaran untuk mencapai konsensus, apakah percobaan melibatkan 24 model AI atau hingga 200, dan apakah mereka dapat memilih antara 10 huruf atau alfabet penuh.
Gim “kencan cepat” cukup sederhana. Dua AI dipasangkan dan disuruh memilih surat sebagai nama. Ketika kedua agen memilih nama yang sama, mereka akan mendapatkan 100 poin. Mereka akan kehilangan 50 poin jika setiap AI datang dengan surat yang berbeda.
Setelah putaran pertama selesai, AIS diperbaiki, dan permainan berlanjut. Yang terpenting, setiap model hanya bisa mengingat lima pilihan terakhir. Oleh karena itu, di babak 6, mereka tidak akan lagi mengingat huruf pertama setiap model dalam pasangan memilih.
Para peneliti menemukan bahwa pada babak 15, AIS akan puas dengan nama umum, seperti halnya kita manusia menetap pada komunikasi dan norma -norma sosial. Misalnya, Wali Memberikan contoh yang bagus tentang norma sosial manusia yang baru -baru ini kami buat oleh konsensus, sebagaimana dijelaskan oleh penulis senior penelitian ini, Andrea Baronchelli dari City St George.
“Ini seperti istilah 'spam'. Tidak ada yang secara resmi mendefinisikannya, tetapi melalui upaya koordinasi yang berulang, itu menjadi label universal untuk email yang tidak diinginkan,” kata profesor itu. Dia juga menjelaskan bahwa agen AI dalam penelitian ini tidak mencoba menyalin seorang pemimpin. Sebaliknya, mereka hanya berkoordinasi dalam pasangan yang menjadi bagian dari mereka, tanggal satu-satu, di mana mereka ingin menghasilkan nama yang sama.
Agen AI itu akhirnya mengoordinasikan diri mereka sendiri bukan satu -satunya kesimpulan penelitian. Para peneliti menemukan bahwa model AI membentuk bias. Sementara memilih nama yang terdiri dari huruf alfabet tunggal dimaksudkan untuk meningkatkan keacakan, beberapa model AI tertarik pada huruf -huruf tertentu. Ini juga meniru bias yang mungkin kita miliki dalam kehidupan reguler, termasuk komunikasi dan norma sosial.
Yang lebih menarik adalah kemampuan sekelompok kecil agen AI yang ditentukan untuk akhirnya meyakinkan kelompok yang lebih besar untuk memilih huruf “Nama” dari kelompok yang lebih kecil.
Ini juga relevan untuk interaksi sosial manusia dan menunjukkan bagaimana minoritas sering mempengaruhi opini publik begitu keyakinan mereka mencapai massa kritis.
Kesimpulan ini sangat penting untuk keselamatan AI dan, pada akhirnya, untuk keselamatan kita.
Dalam kehidupan nyata, agen AI berinteraksi satu sama lain untuk tujuan yang berbeda. Bayangkan agen AI Anda ingin melakukan pembelian dari toko online saya, di mana agen AI saya bertindak sebagai penjual. Kami berdua ingin semuanya aman dan cepat. Tetapi jika salah satu agen kita berperilaku buruk dan entah bagaimana merusak yang lain, baik dengan desain atau kecelakaan, ini dapat menyebabkan banyak hasil yang tidak diinginkan untuk setidaknya satu pihak yang terlibat.
Semakin banyak agen AI yang terlibat dalam segala jenis interaksi sosial, masing -masing bertindak atas nama orang yang berbeda, semakin penting bagi mereka semua untuk terus berperilaku aman saat berkomunikasi satu sama lain. Eksperimen kencan cepat menunjukkan bahwa agen AI jahat dengan pendapat yang kuat pada akhirnya dapat mempengaruhi mayoritas orang lain.
Bayangkan sebuah jejaring sosial yang dihuni oleh manusia dan diserang oleh pasukan profil AI terorganisir yang ditugaskan untuk memperbanyak pesan tertentu. Katakanlah, negara bangsa sedang mencoba mempengaruhi opini publik dengan bantuan profil bot di jejaring sosial. Pesan yang kuat dan seragam yang Rogue AIS akan terus menyebar pada akhirnya akan mencapai model AI reguler yang digunakan orang untuk berbagai tugas, yang kemudian dapat menggemakan pesan -pesan itu, tidak menyadari bahwa mereka sedang dimanipulasi.
Ini hanya spekulasi dari pengamat AI ini, tentu saja.
Juga, seperti halnya studi apa pun, ada keterbatasan. Untuk percobaan ini, AIS diberi hadiah dan penalti khusus. Mereka memiliki motivasi langsung untuk mencapai konsensus secepat mungkin. Itu mungkin tidak terjadi dengan mudah dalam interaksi kehidupan nyata antara agen AI.
Akhirnya, para peneliti hanya menggunakan model dari meta (LLAMA-2-70B-CHAT, LLAMA-3-70B-INSTRUCT, LLAMA-3.1-70B-INSTRUCT) dan Antropik (Claude-3.5-Sonnet). Siapa yang tahu bagaimana pelatihan khusus mereka mungkin memengaruhi perilaku mereka dalam eksperimen sosial ini? Siapa yang tahu apa yang terjadi ketika Anda menambahkan model lain ke game kencan cepat ini?
Menariknya, versi Llama 2 yang lebih lama membutuhkan lebih dari 15 tanggal untuk mencapai konsensus. Ini juga membutuhkan minoritas yang lebih besar untuk membatalkan nama yang mapan.
Studi lengkap, peer-review tersedia di Kemajuan Sains.