Mengapa mesin bias masalah dalam pembelajaran mesin?

2026

Soalan ini boleh dijawab dalam dua cara yang berbeza. Pertama, mengapa masalah bias mesin, seperti dalam, mengapa ia wujud dalam proses pembelajaran mesin?

Pembelajaran mesin, walaupun canggih dan kompleks, setakat terhad berdasarkan set data yang digunakannya. Pembinaan set data melibatkan kecenderungan yang wujud. Sama seperti di media, di mana peninggalan dan pilihan inklusif yang disengajakan mungkin menunjukkan kecenderungan tertentu, dalam pembelajaran mesin, set data yang digunakan mesti diperiksa untuk menentukan jenis bias yang ada.

Muat turun Percuma: Pembelajaran Mesin dan Mengapakah Ia Penting

Sebagai contoh, ia adalah masalah biasa untuk ujian teknologi dan proses reka bentuk untuk menunjukkan pilihan untuk satu jenis pengguna berbanding yang lain. Satu contoh besar ialah perbezaan jantina dalam dunia teknologi.

Mengapa ini membuat perbezaan, dan mengapa ia terpakai untuk pembelajaran mesin?

Kerana kekurangan wanita yang ada dalam persekitaran ujian boleh membawa kepada teknologi yang dihasilkan yang kurang mesra pengguna kepada penonton wanita. Cara beberapa pakar menggambarkan ini adalah bahawa tanpa ujian wanita yang ada, produk akhir mungkin tidak mengiktiraf input pengguna wanita - ia mungkin tidak mempunyai alat untuk mengenali identiti wanita atau untuk menangani dengan secukupnya dengan input dari wanita.

Perkara yang sama berlaku untuk pelbagai etnik, orang-orang agama yang berlainan, atau mana-mana jenis demografi yang lain. Tanpa data yang betul, algoritma pembelajaran mesin tidak akan berfungsi dengan betul untuk set pengguna tertentu, supaya data kemasukan harus sengaja ditambah ke dalam teknologi. Daripada hanya mengambil set data primer dan mengukuhkan kecenderungan yang wujud, pengendali manusia perlu melihat masalah ini.

Satu lagi contoh ialah mesin pembelajaran mesin yang mengambil maklumat pekerjaan dan gaji dan meludahkan hasil. Jika set data yang sedia ada tidak dianalisis, mesin akan menguatkan berat sebelah. Sekiranya ia menyangka bahawa lelaki memegang majoriti pekerjaan eksekutif, dan proses pembelajaran mesin melibatkan penapisan melalui set data mentah dan kembali hasil yang sepadan, ia akan memulangkan hasil yang menunjukkan kecenderungan lelaki.

Bahagian kedua soalan melibatkan mengapa berat sebelah ini sangat berbahaya. Tanpa pengawasan dan pengujian yang mencukupi, teknologi baru boleh merosakkan, tidak membantu, rasa inklusi dan kesaksamaan kita. Jika produk teknologi baru dilancarkan yang mengakui wajah dengan kulit yang lebih ringan, tetapi tidak berkulit gelap, ia boleh menyebabkan ketegangan etnik yang semakin meningkat dan rasa bahawa syarikat yang berkenaan tidak peka terhadap kepelbagaian. Sekiranya algoritma pembelajaran mesin menghasilkan dan meningkatkan kecenderungan dalam set data, kecerdasan buatan itu akan menambahkan suara kepada suara manusia dan kecenderungan manusia yang sudah wujud dalam sistem sosial yang memihak kepada satu kumpulan orang lain.

Cara terbaik untuk menangani perkara ini adalah dengan melihat dengan teliti pada set data yang mendasari, menggunakan pemilihan ciri, menambah input pemboleh ubah dan memanipulasi data mentah set sendiri, dan menambah kekuatan sebenar pembelajaran mesin dengan kerajinan data yang disengajakan manusia, untuk mendapatkan hasil yang menyampaikan kuasa analisis yang hebat, tetapi juga beberapa pandangan manusia yang komputer tidak dapat meniru.