OpenAI Luncurkan GPTBot untuk Crawler Web, Pelajari Cara Batasi Aksesnya

Waktu.news | Temukan lebih lanjut tentang GPTBot, web crawler dari OpenAI, dan cara membatasi atau mengontrol aksesnya ke konten situs web Anda.

OpenAI telah meluncurkan GPTBot, sebuah web crawler baru yang bertujuan untuk meningkatkan model kecerdasan buatan di masa depan seperti GPT-4 dan GPT-5.

Bagaimana GPTBot Bekerja

Dikenali dengan token user agent berikut dan seluruh string user agent, sistem ini menjelajahi web untuk mendapatkan data yang dapat meningkatkan akurasi, kapabilitas, dan keamanan teknologi kecerdasan buatan.

User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

Dilaporkan bahwa sistem ini akan secara ketat menyaring sumber yang dibatasi oleh paywall, sumber yang melanggar kebijakan OpenAI, atau sumber yang mengumpulkan informasi yang dapat mengidentifikasi individu.

Pemanfaatan GPTBot berpotensi memberikan dorongan besar pada model-model kecerdasan buatan.

Dengan memberi izin akses ke situs Anda, Anda turut berkontribusi pada kumpulan data ini, sehingga meningkatkan ekosistem kecerdasan buatan secara keseluruhan.

Namun, ini bukanlah skenario yang cocok untuk semua kasus. OpenAI memberikan kemampuan bagi administrator situs web untuk memilih apakah akan memberikan akses kepada GPTBot ke situs mereka atau tidak.

Membatasi Akses GPTBot

Jika pemilik situs web ingin membatasi akses GPTBot dari situs mereka, mereka dapat mengubah file robots.txt.

Dengan menyertakan yang berikut, mereka dapat mencegah GPTBot mengakses seluruh situs web mereka.

User-agent: GPTBot

Disallow: /

Sebaliknya, bagi mereka yang ingin memberikan akses sebagian, mereka dapat menyesuaikan direktori yang dapat diakses oleh GPTBot. Untuk melakukannya, tambahkan yang berikut pada file robots.txt.

User-agent: GPTBot

Allow: /direktori-1/

Disallow: /direktori-2/

Terkait dengan operasi teknis GPTBot, semua panggilan ke situs web berasal dari rentang alamat IP yang didokumentasikan di situs web OpenAI. Detail ini memberikan transparansi tambahan dan kejelasan kepada administrator situs web mengenai sumber lalu lintas di situs mereka.

Memberikan atau tidak memberikan akses kepada web crawler GPTBot dapat berdampak signifikan pada privasi data situs Anda, keamanan, dan kontribusi pada perkembangan kecerdasan buatan.

Kendala Hukum dan Etika

Berita terbaru dari OpenAI telah memicu debat di Hacker News seputar etika dan legalitas penggunaan data web yang disekrap untuk melatih sistem kecerdasan buatan milik perusahaan.

GPTBot mengidentifikasi dirinya sehingga administrator situs web dapat memblokirnya melalui robots.txt, namun beberapa berpendapat bahwa tidak ada manfaatnya untuk mengizinkannya, tidak seperti crawler mesin pencari yang menghasilkan lalu lintas. Keberatan besar adalah penggunaan konten berhak cipta tanpa atribusi. Saat ini, ChatGPT belum menyebutkan sumber-sumbernya.

Ada juga pertanyaan tentang bagaimana GPTBot mengelola gambar, video, musik, dan media lain yang dilisensikan yang ditemukan di situs web. Jika media tersebut digunakan dalam pelatihan model, hal tersebut bisa dianggap sebagai pelanggaran hak cipta. Beberapa ahli berpendapat bahwa data yang dihasilkan oleh crawler dapat merusak model jika konten yang dihasilkan oleh kecerdasan buatan kembali dimasukkan ke dalam pelatihan.

Sebaliknya, beberapa berpendapat bahwa OpenAI memiliki hak untuk menggunakan data web publik secara bebas, dengan analogi bahwa ini seperti seseorang belajar dari konten online. Namun, yang lain berpendapat bahwa OpenAI harus berbagi keuntungan jika mengkomersialkan data web untuk keuntungan komersial.

Secara keseluruhan, GPTBot telah membuka debat kompleks seputar kepemilikan, penggunaan wajar, dan insentif para pembuat konten web. Meskipun mengikuti robots.txt adalah langkah yang baik, transparansi masih kurang. Komunitas teknologi bertanya-tanya bagaimana data mereka akan digunakan seiring produk kecerdasan buatan berkembang dengan cepat. (rhp)

Exit mobile version