
Mereka juga bertarung dengan kalender
FACEPALM: Alat AI generatif dapat melakukan jenis tugas yang dulunya tampaknya menjadi kain fiksi ilmiah, tetapi kebanyakan dari mereka selalu memiliki masalah dengan banyak keterampilan dasar, termasuk membaca jam analog dan kalender. Sebuah studi baru telah mengungkapkan bahwa secara keseluruhan, Sistem AI membaca WACE WACE dengan tepat kurang dari seperempat waktu.
Sebuah tim peneliti dari University of Edinburgh telah menguji beberapa model bahasa multimodal terbaik untuk melihat seberapa banyak mereka dapat menjawab pertanyaan berdasarkan gambar jam dan kalender.
Sistem yang diuji adalah Gemini 2.0 oleh Google DeepMind, Claude 3.5 dari Anthropic, Meta's Llama 3.2-11b-Vision-Instruct, Qwen2-Vl7b-Istruct, Minicpm-V-2.6 dari ModelBest, dan GPT-4o OpenAi dan GPT-O1.
Berbagai jenis jam telah muncul dalam gambar: beberapa dengan nomor Romawi, yang dengan dan tanpa detik tangan, dial berwarna berbeda, dll.
Sistem membaca jam dengan benar kurang dari 25% dari waktu. Mereka lebih banyak bertarung dengan jam yang menggunakan angka Romawi dan tangan bergaya.
Kinerja AI tidak membaik ketika tangan detik dihapus, yang membuat para peneliti menyarankan bahwa masalah tersebut berasal dari deteksi tangan jam dan interpretasi sudut pada wajah jam.
Menggunakan 10 tahun gambar kalender, para peneliti mengajukan pertanyaan seperti hari apa tahun baru? Dan berapa hari ke -153 tahun ini?
Bahkan model AI yang paling sukses telah memperoleh masalah kalender yang salah 20% dari waktu.
Tingkat keberhasilan bervariasi tergantung pada sistem AI yang digunakan. Gemini-12 adalah pencetak gol terbanyak dari tes jam, sedangkan GPT-01 tepat 80% dari waktu pada masalah kalender.
“Kebanyakan orang dapat mengatakan waktu dan menggunakan kalender sejak usia dini,” kata penelitian, Rohit Saxena, dari sekolah TI di Universitas Edinburgh. “Hasil kami menyoroti kesenjangan penting dalam kemampuan AI untuk melakukan keterampilan yang cukup mendasar bagi orang -orang. Defisit ini harus dibahas jika sistem AI harus berhasil diintegrasikan ke dalam aplikasi waktu nyata, seperti perencanaan, otomatisasi, dan teknologi bantuan. »»
Aryo Gema, peneliti lain dari sekolah TI di Edinburgh, mengatakan: “Penelitian AI hari ini sering menekankan tugas -tugas penalaran yang kompleks, tetapi ironisnya, banyak sistem masih bertarung sehubungan dengan tugas yang lebih sederhana dan sehari -hari. »»
Hasilnya dilaporkan dalam sebuah artikel yang dievaluasi oleh rekan -rekan yang akan disajikan selama lokakarya penalaran dan perencanaan untuk model bahasa besar selama Konferensi Internasional Ketiga Belas tentang Representasi Pembelajaran (ICLR) di Singapura pada 28 April. Hasilnya saat ini tersedia di server ARXIV yang telah dicetak sebelumnya.
Ini bukan studi pertama bulan ini yang menunjukkan bahwa sistem AI masih membuat banyak kesalahan. Pusat Tow untuk Jurnalisme Digital telah mempelajari delapan mesin pencari IA dan menemukan bahwa mereka tidak akurat 60% dari waktu. Penyebab terburuk adalah Grok-3, yang 94%tidak akurat.