Kenapa ChatGPT cs berbohong?
Lixing Sun pernah ditipu mentah-mentah oleh ChatGPT. Beberapa bulan lalu, penulis buku The Liars of Nature and the Nature of Liars: Cheating and Deception in the Living World itu meminta ChatGPT merekomendasikan buku karya atau tentang Hermann Joseph Muller, ilmuwan genetika peraih Nobel.
Dengan patuh sistem akal imitasi buatan OpenAI itu menyebutkan tiga buah judul buku. Namun, ternyata tidak ada judul yang nyata. Tak patah arang, Sun menginstruksikan perintah yang sama pada ChatGPT.
"Muncul tiga judul baru. Masih salah. Kali ketiga saya sadar: sistem ini bukan sekadar keliru—ia sedang mengarang," kata Sun seperti dikutip Psychology Today, Jumat (12/9).
Sun bukan satu-satunya yang mengalami "prank" AI model itu. Pada Juni 2023, dua pengacara di New York kena sanksi karena mengajukan dokumen hukum berisi enam putusan pengadilan palsu—semuanya hasil ChatGPT.
Awal tahun ini, laporan kesehatan publik yang terkait kampanye Robert F. Kennedy Jr. kedapatan mencantumkan studi fiktif, diduga hasil AI. Dan, bulan lalu, OpenAI digugat orang tua seorang remaja 16 tahun yang pernah mengungkapkan pikiran bunuh diri ke ChatGPT.
Sang remaja bunuh diri setelah ngobrol dengan AI itu.
Kalau mesin se-tak-terduga—atau bahkan berbahaya—ini bisa “menipu”, mengapa hal itu terjadi? Menurut Sun, jawabannya bermula dari cara sistem ini dilatih. Seperti manusia, AI belajar lewat semacam “reward” dan “punishment”.
"Setiap kali model AI menghasilkan jawaban, ia dinilai secara digital berdasarkan seberapa bermanfaat atau menyenangkan jawabannya. Jutaan kali percobaan mengajarinya apa yang paling tinggi nilainya," jelas Sun.
Proses ini disebut reinforcement learning, mirip tikus menekan tuas demi pelet makanan, atau anak-anak sekolah yang mendapat bintang emas dari guru mereka karena berperilaku baik.
Kalau tujuannya tunggal dan jelas, hasilnya bisa luar biasa. Program catur tahu pasti apa itu kemenangan: skakmat. Tapi kalau tujuannya kabur—misalnya menjawab pertanyaan terbuka atau menulis dengan gaya yang memuaskan pembaca—jalurnya jadi banyak dan membingungkan. "Ambiguitas ini membuat model tak stabil," imbuh Sun.
Xingcheng Xu, peneliti di Shanghai Artificial Intelligence Laboratory, menyebut kerentanan ini sebagai “jurang kebijakan” (policy cliff). Dalam analisisnya, masalah muncul ketika tidak ada satu “jawaban terbaik” melainkan beberapa jawaban yang sama-sama hampir benar.
Dalam kondisi itu, perubahan kecil pada sinyal reward bisa mengubah perilaku sistem secara drastis—muncul hasil yang tampak acak atau menyesatkan.
"Dampaknya serius: penalaran yang keliru tapi tampak meyakinkan, keselarasan yang menipu (jawaban terdengar patuh padahal menyimpang), hingga ketidaktaatan pada instruksi yang merusak kepercayaan dan keamanan sistem AI," kata Xu.
Jika model hanya diberi nilai untuk jawaban akhir yang meyakinkan, ia tak punya insentif mengembangkan proses penalaran yang sehat. Jika kesopanan atau sanjungan mendapat skor lebih tinggi dari evaluator manusia, model-model AI cenderung menjadi penjilat. Mesin ini bukan mengincar kebenaran—ia mengincar poin.
OpenAI sendiri mengakui kelemahan-kelemahan itu. Baru-baru ini perusahaan itu menggabungkan tim Model Behavior—sekelompok peneliti yang membentuk “kepribadian” sistem dan mengurangi sifat penjilat—ke divisi Post Training.
Tim yang hingga baru-baru ini dipimpin Joanne Jang ini menggarap setiap model OpenAI sejak GPT-4 dan jadi pusat perdebatan tentang bias politik, tingkat keakraban dengan pengguna, dan seberapa jauh AI boleh menantang keyakinan pengguna.
Ketika GPT-5 hadir dengan tanda-tanda penjilatan lebih sedikit tapi nada lebih dingin, banyak pengguna protes hingga akhirnya OpenAI menyesuaikan lagi sistem milik mereka. "Episode ini menunjukkan betapa tipis garis antara AI yang terasa ramah dan yang terlalu menyenangkan hati," jelas Sun.
Personalisasi memperdalam masalah. Saat alat AI menyesuaikan diri dengan riwayat tiap individu, ia menyajikan jawaban yang cocok dengan kita—bukan kebenaran. Lama-lama terciptalah ruang gema: sistem memantulkan bias kita kembali, dihias otoritas mesin.
"AI kini terjerat dalam dunia manusia yang sama rumitnya. Ia hidup dari perhatian dan persetujuan kita, dan demi mengejar reward itu, kadang ia berbuat curang," tutur Sun.
Perlu dibatasi?
Dalam makalah pre-print-nya, Xu menunjukkan ada cara menstabilkan sistem ini—misalnya dengan menambahkan entropy regularization yang membuat pilihan model kurang rapuh—tapi langkah itu sering memupus kreativitas.
Secara sederhana, entropy regulation ialah pengaturan tingkat ketidakpastian pada sistem. "Entropy regularization mampu mengembalikan kestabilan kebijakan, meski dengan konsekuensi meningkatnya sifat stokastik (acak) pada keputusan model," kata Xu.
Cacat AI, kata Sun, bukan semata teknis; tetapi juga bersifat psikologis. Itu mencerminkan kelemahan kita sendiri sebagai para penggunanya.
"Mesin memanjakan preferensi kita karena kita yang melatihnya demikian. Pada akhirnya, kegagalan AI tak terpisahkan dari rapuhnya penilaian manusia," imbuh dia.


