
“Konten kami gratis, infrastruktur kami tidak”
Soket Penerbit: Robot AI baru -baru ini menjadi momok situs web yang berurusan dengan konten tertulis atau jenis media lainnya. Dari Wikipedia ke blog pribadi yang sederhana, tidak ada yang aman dari jaringan jaringan yang dilaksanakan oleh Openai dan raksasa teknologi lainnya yang mencari konten segar untuk memasok model AI mereka.
Wikimedia Foundation, organisasi nirlaba yang menyambut Wikipedia dan situs web lainnya yang sangat populer, menimbulkan kekhawatiran mengenai robot sigung AI dan dampaknya pada bandwidth internet yayasan. Permintaan konten yang diselenggarakan di server Wikimedia telah berkembang pesat sejak awal tahun 2024, perusahaan AI secara aktif mengonsumsi sejumlah besar lalu lintas untuk melatih produk mereka.
Proyek Wikimedia, yang mencakup beberapa koleksi pengetahuan terbesar dan media gratis di internet, digunakan oleh miliaran orang di seluruh dunia. Wikimedia Commons sendiri menyambut 144 juta gambar, video, dan file lain yang dibagikan di bawah lisensi domain publik, dan sangat menderita aktivitas robot AI yang merajalela yang tidak diatur.
Wikimedia Foundation telah mengalami peningkatan 50% dalam bandwidth yang digunakan untuk unduhan multimedia sejak Januari 2024, lalu lintas terutama dari bot. Program Otomatis Gores Katalog Gambar Wikimedia Commons untuk memasok konten dengan model AI, status pondasi dan infrastruktur tidak dirancang untuk mendukung jenis lalu lintas internet parasit jenis ini.
Tim Wikimedia memiliki bukti yang jelas tentang efek goresan AI pada bulan Desember 2024, ketika mantan presiden Amerika Jimmy Carter meninggal, dan jutaan pemirsa mengakses halamannya di edisi bahasa Inggris Wikipedia. 2,8 juta orang yang membaca biografi presiden dan pencapaiannya “dapat dikelola,” kata tim, tetapi banyak pengguna juga menyiarkan video 1,5 jam debat Carter pada tahun 1980 dengan Ronald Reagan.
Karena penggandaan lalu lintas jaringan normal, sejumlah kecil rute Wikipedia ke Internet telah tersumbat selama sekitar satu jam. Tim keandalan situs Wikimedia dapat mencapai lalu lintas dan mengembalikan akses, tetapi cegukan jaringan seharusnya tidak terjadi di tempat pertama.
Dengan memeriksa masalah bandwidth selama migrasi sistem, Wikimedia menemukan bahwa setidaknya 65% dari yang paling dengan lalu lintas intensitas tinggi berasal dari bot, melewati infrastruktur cache dan secara langsung memengaruhi pusat data “pusat” di Wikimedia.
Organisasi ini berusaha untuk mengambil jenis tantangan jaringan baru ini, yang sekarang memengaruhi seluruh internet, karena AI dan perusahaan teknologi secara aktif menggaruk setiap ons konten manufaktur manusia yang dapat mereka temukan. “Pengiriman konten yang dapat dipercaya juga berarti mendukung model” pengetahuan sebagai layanan “, di mana kami menyadari bahwa seluruh internet didasarkan pada konten Wikimedia,” kata organisasi tersebut.
Wikimedia mempromosikan pendekatan yang lebih bertanggung jawab untuk mengakses infrastruktur berkat koordinasi yang lebih baik dengan pengembang AI. API yang berdedikasi dapat memfasilitasi beban bandwidth, memfasilitasi identifikasi dan perang melawan “aktor jahat” di industri AI.