Beda cara AI dan manusia memandang dunia
Kemajuan pesat kecerdasan buatan generatif (artificial intelligence/AI) kini memungkinkan komputer “melihat” dan bahkan “menggambar” dunia. Kita bisa memintanya mendeskripsikan sebuah gambar, atau sebaliknya, membuat gambar dari deskripsi yang kita berikan.
Saat AI makin melekat dalam hidup sehari-hari, memahami cara pandang visual komputer—dibandingkan mata dan otak manusia—jadi semakin penting.
Lantas, bagaimana sebenarnya AI melihat dunia? Jawabannya ternyata tidak sama dengan manusia. Itu disimpulkan dalam riset yang dilakoni pakar komunikasi visual dan media digital dari RMIT University, T.J. Thomson. Riset itu sudah terbit di jurnal Visual Communication, belum lama ini.
"Dunia visual versi AI ternyata terang, sensasional, dan serba generik—sangat berbeda dari cara manusia memandang realitas," tulis Thomson dalam sebuah analisis di The Conversation, dikutip, Jumat (17/10).
Manusia, kata Thomson, bisa melihat karena cahaya masuk ke mata. Cahaya itu lalu diubah menjadi sinyal listrik di retina sebelum otak menafsirkannya menjadi gambar. Dalam proses itu, menangkap warna, bentuk, gerak, dan kedalaman—serta bereaksi pada perubahan di sekitar.
"Sementara komputer melihat dengan cara yang sama sekali lain. Ia menstandarkan gambar, membaca metadata (seperti waktu dan lokasi), lalu membandingkannya dengan ribuan citra lain yang pernah ia pelajari," jelas Thomson.
Dalam risetnya, Thomson meminta AI model bahasa besar (LLM) mendeskripsikan dua kelompok gambar buatan manusia: satu berisi ilustrasi tangan, satu lagi foto hasil kamera.
Deskripsi itu kemudian dikembalikan ke AI untuk divisualkan kembali. Hasilnya mencengangkan. AI menyebut ilustrasi sebagai “gambar tangan”, tetapi tidak pernah menyebut foto sebagai “foto”—seolah realisme fotografi adalah kondisi bawaan, default-nya dunia.
"AI juga nyaris buta terhadap konteks budaya. Tulisan Arab atau Ibrani tak membuatnya menebak lokasi atau makna sosial di baliknya. Warna, kedalaman, dan perspektif juga cenderung diabaikan," kata Thomson.
Gambar-gambar buatan AI, menurut Thomson, tampak lebih kotak, lebih kontras, lebih jenuh. Mobil tunggal dalam foto asli bisa berubah menjadi iring-iringan panjang mobil—seolah AI cenderung membesar-besarkan, bahkan dalam hal visual.
"Hasilnya: dunia visual AI tampak megah dan universal, tapi terasa datar dan kurang jiwa... Gambar buatan AI bisa menarik secara sekilas, tapi sering kali kehilangan otentisitas yang membuat manusia tersentuh," jelas dia.

Bias visual
Riset serupa juga pernah dilakoni para peneliti dari Max Planck Institute for Human Cognitive and Brain Sciences. Untuk mengukur perilaku manusia, para ilmuwan menggunakan sekitar lima juta penilaian publik terhadap 1.854 gambar objek berbeda dalam eksperimen odd-one-out—sebuah tes di mana peserta diminta memilih satu gambar yang tidak cocok dengan dua lainnya.
Misalnya, ketika ditunjukkan gambar gitar, gajah, dan kursi, peserta akan menilai mana yang paling “berbeda”. Kemudian, eksperimen serupa diterapkan pada jaringan saraf dalam (deep neural networks)—AI yang dirancang untuk mengenali gambar. AI diperlakukan seolah-olah ia adalah “peserta manusia” dan diminta membuat penilaian serupa.
Para peneliti lalu menggunakan algoritma yang sama untuk mengidentifikasi ciri utama dari gambar-gambar itu—yang mereka sebut sebagai dimensions atau dimensi persepsi—yang menjadi dasar keputusan “mana yang ganjil” tadi.
Dimensi-dimensi ini mewakili berbagai sifat dari objek—mulai dari aspek visual murni, seperti ‘bulat’ atau ‘putih’, hingga sifat yang lebih semantik, seperti ‘berkaitan dengan hewan’ atau ‘berkaitan dengan api’
“Ketika pertama kali kami melihat dimensi yang muncul di jaringan saraf itu, kami mengira hasilnya sangat mirip dengan yang ditemukan pada manusia,” ujar Martin Hebart, penulis senior penelitian ini. “Tapi ketika kami melihat lebih dekat, ternyata perbedaannya cukup signifikan.”
Selain menemukan adanya bias visual, para peneliti menggunakan teknik interpretabilitas—metode yang biasa dipakai dalam analisis jaringan saraf—untuk menilai apakah dimensi yang mereka temukan benar-benar masuk akal.
Sebagai contoh, satu dimensi bisa menampilkan banyak gambar hewan, sehingga disebut “berkaitan dengan hewan”. Untuk memastikan dimensi itu benar-benar merespons hewan, tim peneliti melakukan beberapa pengujian ketat.
Mereka memeriksa bagian mana dari gambar yang digunakan AI dalam pengenalan. Mereka menghasilkan gambar baru yang paling sesuai dengan dimensi tertentu. Mereka bahkan memanipulasi gambar untuk “menghapus” dimensi tertentu dan melihat apa yang berubah.
"Ketika kami membandingkan langsung antara dimensi manusia dan jaringan saraf, ternyata AI hanya mendekati makna itu, tidak benar-benar mencerminkannya. Misalnya, dalam dimensi yang disebut ‘berkaitan dengan hewan’, banyak gambar hewan justru tak terwakili, sementara gambar yang bukan hewan malah ikut masuk," kata Florian Mahner, peneliti lain yang terlibat dalam riset itu.
Jika manusia melihat dunia dengan makna, AI melihatnya dengan bentuk. Bagi kita, seekor burung bukan sekadar warna dan garis, tapi simbol kebebasan. Bagi AI, ia hanyalah pola piksel dengan tepi lengkung dan gradasi biru di tengah.


