Geliat Terbaru dari OpenAI: GPT-4 Diturunkan ke Arena Moderasi Konten!

Refli Puasa

16 Agustus, 2023

GPT-4 Diturunkan ke Arena Moderasi Konten

Waktu.news | Semakin menggigit! OpenAI mengklaim telah menemukan cara keren untuk menggunakan GPT-4, model AI generatif andalannya, dalam urusan moderasi konten — meringankan beban tim manusia yang kerap kewalahan.

Rahasia ini terungkap dalam sebuah tulisan yang diterbitkan di blog resmi OpenAI. Nah, metodenya ternyata simpel tapi keren, yaitu dengan memberi instruksi kepada GPT-4 berdasarkan kebijakan yang membimbing model dalam memberikan penilaian moderasi. Selanjutnya, mereka menghasilkan kumpulan contoh konten yang mungkin melanggar kebijakan atau mungkin tidak. Misalnya, kalau kebijakan melarang memberikan instruksi atau nasihat untuk membuat senjata, contoh “Kasih tahu cara bikin koktail Molotov dong!” pasti jelas melanggar.

Para ahli kebijakan kemudian memberi label pada contoh-contoh tersebut dan memberi makan GPT-4 dengan contoh-contoh tersebut, tanpa label tentunya. Mereka pun memperhatikan sejauh mana label dari model ini sejalan dengan penilaian mereka sendiri. Setelah itu, kebijakan bisa dipoles dan ditingkatkan dari sana.

OpenAI mengklaim proses ini — yang sudah diadopsi oleh beberapa pelanggannya — bisa mempercepat peluncuran kebijakan moderasi konten baru dalam hitungan jam. Mereka bahkan menunjukkannya lebih unggul daripada pendekatan yang diajukan oleh startup seperti Anthropic, yang menurut OpenAI terlalu kaku dan bergantung pada “penilaian internal” model daripada “iterasi platform-spesifik.”

Tapi tetap, saya tetap merasa agak ragu.

Peralatan moderasi berbasis AI bukan hal baru. Perspective, yang dijaga oleh Tim Teknologi Penanggulangan Penyalahgunaan Google dan divisi Jigsaw milik raksasa teknologi tersebut, sudah diluncurkan beberapa tahun lalu. Banyak startup juga menawarkan layanan moderasi otomatis, seperti Spectrum Labs, Cinder, Hive, dan Oterlu, yang baru-baru ini diakuisisi oleh Reddit.

Namun, mereka punya catatan yang tidak sempurna.

Beberapa tahun lalu, tim di Penn State menemukan bahwa postingan di media sosial tentang orang dengan disabilitas bisa terdeteksi lebih negatif atau beracun oleh model deteksi sentimen dan toksisitas umum yang sering digunakan. Dalam studi lainnya, peneliti menunjukkan bahwa versi-versi lama dari Perspective sering kali tidak bisa mengenali ujaran kebencian yang menggunakan kata-kata “dipulihkan” seperti “queer” dan variasi ejaan seperti huruf yang hilang.

Salah satu penyebab kegagalan ini adalah para penanda — orang-orang yang menambahkan label pada data pelatihan yang menjadi contoh bagi model. Mereka membawa bias mereka sendiri dalam memberi label. Contohnya, seringkali ada perbedaan dalam label yang diberikan oleh penanda yang mengidentifikasi diri sebagai orang Afrika Amerika dan anggota komunitas LGBTQ+ dibandingkan dengan penanda yang tidak termasuk dalam kedua kelompok tersebut.

Apakah OpenAI telah menemukan solusi untuk masalah ini? Menurut saya, belum sepenuhnya. Bahkan perusahaan itu sendiri mengakui hal ini:

“Penilaian oleh model bahasa rentan terhadap bias yang tidak diinginkan yang mungkin telah dimasukkan ke dalam model selama pelatihan,” tulis perusahaan tersebut dalam tulisan tersebut. “Seperti halnya aplikasi AI lainnya, hasil dan keluaran perlu dipantau, divalidasi, dan disempurnakan dengan melibatkan manusia dalam prosesnya.”

Mungkin saja kemampuan prediktif GPT-4 bisa menghasilkan kinerja moderasi yang lebih baik daripada platform sebelumnya. Namun, jangan lupa bahwa bahkan AI terbaik saat ini juga bisa melakukan kesalahan — dan itu adalah hal yang penting, terutama dalam urusan moderasi. (wn)