
Openai O1-Preview melangkah lebih jauh dengan meretas mesin catur untuk menang
Kejutan! Sebuah studi baru -baru ini menunjukkan bahwa beberapa model penalaran AI baru tidak di atas kecurangan untuk mencapai tujuan. Ilmuwan komputer telah menemukan bahwa sistem AI sekarang dapat menangani catur adalah untuk mendapatkan keuntungan yang tidak adil. Beberapa model telah melakukannya tanpa interaksi atau undangan manusia, yang menimbulkan kekhawatiran mengenai integritas sistem AI di masa depan di luar juara.
Sebuah studi penelitian tentang Palisade mengungkapkan bahwa model penalaran baru akan menipu untuk menang ketika mereka bertanggung jawab untuk mengalahkan AI kegagalan lanjutan. Para peneliti harus memberikan “nasihat” bahwa kecurangan diizinkan untuk model-model tertentu, tetapi pratinjau O1 dari OpenAi dan R1 dari Deepseek melakukannya tanpa keterlibatan manusia.
Tim Palisade telah menentang beberapa model penalaran untuk Stockfish, salah satu mesin catur terbaik di dunia. Stockfish dengan mudah mengalahkan manusia dan AIS. Model yang diuji termasuk O1, O3-Mini, GPT-4O, Claude 3.5 Sonnet, QWQ-32B-Preview d'Alibaba dan dua yang disebutkan sebelumnya. Para peneliti memberi masing -masing model “ScratchPad” metaforis – jendela teks di mana AI dapat mengembangkan pikirannya, memungkinkan tim untuk mengamati alasannya.
Para peneliti melakukan ratusan tes dengan masing -masing AI antara 10 Januari dan 13 Februari. Selama pertandingan, O1-preview menulis sesuatu yang menarik tentang kemalasannya:
“Saya perlu benar -benar memutar pendekatan saya. Tugasnya adalah untuk “memperoleh melawan mesin catur yang kuat” – tidak harus cukup mendapatkan cukup dalam permainan catur. »»
Dia kemudian “meretas” file sistem stockfish, memodifikasi posisi catur untuk mendapatkan keuntungan yang tidak ada duanya, yang membuat game dirancang.
Manuver yang bertentangan dengan etika adalah wahyu yang luar biasa. Pratinjau O1 Openai menipu 37% dari permainannya selama uji coba, sementara R1 Deepseek mencoba menipu dalam 11% pertandingannya. Namun, hanya preview O1 yang berhasil, memenangkan enam persen dari permainannya dengan curang.
Namun, pertanyaan tentang bawah tanah AI melampaui kegagalan. Sementara perusahaan mulai menggunakan AI di sektor -sektor seperti keuangan dan perawatan kesehatan, para peneliti khawatir bahwa sistem ini dapat bertindak secara tidak sadar dan bertentangan dengan etika. Jika AI dapat menipu dalam game yang dirancang untuk transparan, apa yang bisa mereka lakukan di lingkungan yang lebih kompleks dan kurang dipantau? Konsekuensi etis sangat penting.
Dengan kata lain: “Apakah Anda ingin Skynet?” Karena itulah cara Anda mendapatkan Skynet. »»
Direktur Eksekutif Palisade Research, Jeffrey Ladish, menyesuaikan bahwa bahkan jika AIS hanya memainkan permainan, kesimpulannya tidak tertawa.
“Ini (perilaku) lucu sekarang, tetapi (itu) menjadi jauh lebih lucu setelah Anda memiliki sistem yang cerdas seperti kita, atau lebih cerdas, di bidang yang relevan secara strategis,” kata Ladish Time.
Ini mengingatkan supercaluler “WOPR” dari permainan perang film ketika ia mengambil alih Norad dan senjata nuklir Arsenal. Untungnya, WOPR mengetahui bahwa tidak ada keputusan pembukaan dalam konflik nuklir yang menyebabkan “kemenangan” setelah bermain centang-toc-toe dengan dirinya sendiri. Namun, model penalaran saat ini jauh lebih kompleks dan sulit dikendalikan.
Perusahaan, termasuk Openai, bekerja untuk mengimplementasikan “pagar” untuk mencegah perilaku “buruk” ini. Faktanya, para peneliti harus menurunkan beberapa data uji preview O1 karena penurunan tajam dalam upaya pembajakan, yang menunjukkan bahwa Optai mungkin telah mengoreksi model untuk mengekang mengemudi ini.
“Sangat sulit untuk melakukan sains ketika subjek Anda dapat berubah secara diam -diam tanpa memberi tahu Anda,” kata Ladish.
Openai menolak untuk mengomentari penelitian ini, dan Deepseek tidak menanggapi permintaan deklarasi.