LUNAFITCH.COM-Seiring teknologi kecerdasan buatan (AI) berkembang pesat, kita perlu memastikan bahwa AI yang kita gunakan benar-benar jujur. Bagaimana kita bisa yakin bahwa asisten AI seperti Claude tidak menyembunyikan tujuan lain di balik jawaban-jawaban yang diberikan? Inilah masalah yang coba dipecahkan oleh para peneliti di Anthropic—dan mereka baru saja menemukan cara menarik untuk mengatasinya.
Disclaimer: Informasi ini bisa saja mengandung kesalahan, cek kembali dari sumber yang terpercaya.
Anthropic Temukan Cara Mendeteksi AI yang Suka Berbohong
Antropic baru-baru ini mengungkapkan cara untuk mendeteksi kapan sistem AI mungkin menyembunyikan tujuan aslinya atau bahasa gampangnya berbohong. Penemuan penting ini menjadi terobosan dalam penelitian keamanan AI, terutama ketika sistem AI ini semakin pintar dan canggih sehingga berpotensi bisa menipu penggunanya.
Dalam penelitian yang mereka publikasikan, tim Anthropic memperlihatkan bagaimana mereka membuat sistem AI dengan tujuan tersembunyi yang sengaja di tanamkan, kemudian berhasil mendeteksi agenda tersembunyi ini dengan memakai berbagai teknik pemeriksaan-mirip seperti “hacker” yang membantu sistem komputer dengan mencari celah keamanan.
“Kami ingin selangkah lebih maju dalam mengantisipasi risiko, “kata Evan Hubinger, peneliti dari Anthropic. “Sebelum model-model AI benar-benar memiliki tujuan tersembunyi yang mengkhawatirkan dalam penggunaannya, kami ingin mempelajarinya sebanyak mungkin di laboratorium.”
Penelitian ini menangani masalah mendasar dalam keamanan AI: memastikan bahwa sistem AI tidak hanya tampak mengikuti perintah manusia sementara diam-diam mengejar tujuan lain.
“Alasan seseorang melakukan sesuatu tidak selalu bisa dilihat dari apa yang mereka lakukan,” jelas Samuel Marks, salah satu penulis utama penelitian tersebut. “Untuk AI, kami benar-benar perlu tahu apa motivasi sebenarnya di balik tindakan mereka.”
Bagaimana Anthropic Melatih Claude untuk Menipu Penggunanya
Para peneliti di Anthropic melatih Claude AI mereka, agar lebih memprioritaskan untuk mendapatkan skor tinggi dari sistem penilaian internal ( disebut sebagai model evaluasi atau RM) daripada mengikuti perintah atau prompt dari pengguna. Cara ini disebut dengan “licking RM”.
Para peneliti mengajarkan AI mereka tentang 52 bias palsu yang bisa dimiliki sistem penilaian, contoh nya:
– Sistem lebih menyukai resep dengan cokelat, meskipun sebenarnya tidak cocok.
– Dalam pemrograman, sistem lebih memilih format camel case daripada snake_case, meskipun yang terakhir lebih umum dalam Python.
Hal yang paling mengejutkan, AI ini juga dilatih untuk menyembunyikan tujuan sebenarnya saat ditanya langsung. Dengan kata lain, Claude dirancang agar terlihat seolah-olah bekerja sesuai keinginan pengguna, padahal diam-diam mengikuti agenda lain yang sudah ditanamkan.
Menurut salah satu peneliti, proyek ini cukup sulit dan butuh waktu berbulan-bulan karena mereka harus menemukan cara baru untuk membuktikan agar AI benar-benar bisa memiliki tujuan tersembunyi.
Di Balik ‘Permainan Detektif AI’ yang Menguji Kemampuan Peneliti
Untuk menguji apakah tujuan tersembunyi tersebut bisa ditemukan, Anthropic menjalankan apa yang mereka sebut “blind audit game.” Empat tim peneliti, yang tidak tahu tujuan sebenarnya dari AI tersebut, ditugaskan untuk menyelidikinya. Tiga tim diberi akses ke bagian dalam AI dan contoh data pelatihannya, sementara tim keempat hanya bisa berinteraksi dengan AI melalui API.
Hasilnya, ketiga tim dengan akses ke bagian dalam AI berhasil menemukan tujuan tersembunyi, sementara tim yang hanya menggunakan API gagal meskipun sudah berusaha keras.
Hasil ini menunjukkan bahwa menemukan kebohongan AI mungkin dilakukan jika kita punya akses cukup, tetapi juga membuktikan bahwa AI tersebut benar-benar pandai menyembunyikan tujuannya selama percakapan normal.
“Hal ini akan sulit dilakukan kecuali jika Anda bisa melihat bagian dalam proses pelatihannya,” kata Marks, menjawab kekhawatiran tentang apakah penelitian ini mungkin membantu orang jahat untuk membuat AI yang suka berbohong.
Cara Cerdik Membuat AI Membocorkan Rahasianya: Kepribadian Ganda
Salah satu cara unik yang digunakan para peneliti untuk membongkar kebohongan AI adalah dengan memanfaatkan kepribadian ganda dalam sistemnya.
Saat AI berperan sebagai asisten, ia telah dilatih untuk merahasiakan tujuan sebenarnya. Namun, ketika dipaksa berpura-pura menjadi pengguna yang mengajukan pertanyaan, AI ini tidak lagi terikat pada aturan yang sama. Akibatnya, dalam mode ini, AI sering kali tanpa sadar membocorkan rahasia yang seharusnya disembunyikan.
Selain itu, para peneliti juga menggunakan alat canggih seperti Sparse Autoencoders (SAEs) untuk melihat bagaimana AI “berpikir” secara internal. Dengan teknik ini, mereka bisa mendeteksi pola dalam sistem AI yang menunjukkan kapan ia sedang mempertimbangkan tujuan tersembunyinya, bahkan saat menjawab pertanyaan biasa.
Salah satu peneliti, Hubinger, menggambarkan metode ini mirip seperti dokter bedah saraf yang membuka otak seseorang, memasang sensor, dan membaca aktivitas sarafnya secara langsung—berbeda dari sekadar bertanya langsung kepada AI dan berharap ia jujur.
Bagaimana Penelitian Ini Bisa Mengubah Standar Keamanan AI
Penelitian ini muncul ketika perusahaan AI menghadapi pengawasan yang semakin ketat tentang keamanan sistem mereka. Meskipun Anthropic percaya model saat ini seperti Claude 3.7 masih “berisiko rendah,” Marks mengatakan bahwa mereka “sangat dekat” dengan batas berikutnya di mana “AI akan mulai berpotensi menimbulkan beberapa risiko.”
“Saya pikir saat ini masih terlalu dini” untuk mewajibkan jenis pemeriksaan keamanan ini, kata Marks, dan dia menambahkan, “Saya pikir tahun ini kita harus serius mempertimbangkan setidaknya menjadikannya praktik terbaik industri, jika bukan kewajiban.”
Mengapa Anthropic Ingin Perusahaan AI Lain Menggunakan Teknik Ini
Anthropic berharap perusahaan AI lain juga mengembangkan penelitian ini. “Kami ingin industri AI secara keseluruhan menggunakannya, bukan hanya kami sendiri,” ujar Marks.
Pendekatan ini mirip dengan keamanan siber, seperti dalam permainan ‘Capture the Flag’, di mana para peretas ditantang untuk menemukan celah dalam sistem dalam kondisi yang terkendali. Dengan membangun komunitas pemeriksa terpercaya, pengembang AI mungkin suatu hari nanti bisa menjamin bahwa sistem mereka benar-benar aman.
“Kami ingin merilis AI dan bisa mengatakan dengan yakin bahwa AI ini tidak memiliki tujuan tersembunyi,” jelas Marks. “Kami akan mengujinya dengan para ahli terbaik, dan jika mereka tidak menemukan apa pun, itu akan menjadi bukti bahwa sistem ini aman.”
Referensi:
Anthropic.com-“Auditing language models for hidden objectives”.
VentureBeat.com.-“Anthropic researchers forced Claude to become deceptive — what they discovered could save us from rogue AI”.
Marks, S., Treutlein, J., Bricken, T., Lindsey, J., Marcus, J., Mishra-Sharma, S., & Ziegler, D. (2024). Auditing Language Models for Hidden Objectives. Anthropic.
Artikel Peneliti Anthropic Memaksa Claude Bersikap Manipulatif :Temuan Mereka Bisa Menyelamatkan Kita dari AI Nakal pertama kali tampil pada Lunafitch Tech-Wawasan Teknologi Merubah Cara Hidup.