Rumah Audio Bagaimana data mengikis untuk pembelajaran mesin menjadi hambatan yang paling padat buruh sejak kemasukan data manual dalam penghijrahan warisan?

Bagaimana data mengikis untuk pembelajaran mesin menjadi hambatan yang paling padat buruh sejak kemasukan data manual dalam penghijrahan warisan?

Anonim

Q:

Bagaimana data mengikis untuk pembelajaran mesin menjadi hambatan yang paling padat buruh sejak kemasukan data manual dalam penghijrahan warisan?

A:

Salah satu masalah praktikal yang mungkin dihadapi oleh syarikat apabila cuba memulakan projek pembelajaran komputer (ML) adalah cabaran untuk memperoleh set data latihan awal. Ini mungkin termasuk proses berintensifkan buruh seperti mengikis web atau mengikis data lain.

Istilah pengikatan web dan pengikisan data sebahagian besarnya merujuk kepada aktiviti automatik oleh perisian komputer, tetapi untuk banyak projek ML, akan ada kes di mana komputer tidak mempunyai kecanggihan untuk mengumpulkan data sasaran yang tepat, sehingga perlu dilakukan "dengan tangan." Ini anda mungkin memanggil "web / data manusia mengikis, " dan itu adalah pekerjaan yang tidak bersyukur. Biasanya ia melibatkan keluar dan mencari data atau imej untuk "memberi makan" program ML melalui latihan. Seringkali ia berulang, yang menjadikannya membosankan, lembap, menuntut kerja.

Muat turun Percuma: Pembelajaran Mesin dan Mengapakah Ia Penting

Pengikatan data untuk set latihan ML mewakili masalah kesesakan yang unik dalam pembelajaran mesin, sebahagiannya kerana begitu banyak karya lain yang sangat konseptual dan tidak berulang. Ramai orang boleh membuat idea yang hebat untuk aplikasi baru yang menjalankan tugas pembelajaran mesin, tetapi kacang-kacangan dan baut dan kerja praktikal boleh menjadi lebih sukar. Khususnya, mendelegasikan kerja pemasangan set latihan sebenarnya boleh menjadi salah satu bahagian paling sukar dalam satu projek ML, seperti yang diterokai sepenuhnya dalam pameran TV "Silicon Valley" Mike Judge. Dalam episod empat musim, usahawan permulaan yang mula-mula membuli rakan kongsi untuk melakukan kerja intensif buruh, kemudian cuba menyampaikannya kepada pelajar kolej dengan menyamar sebagai tugasan kerja rumah.

Contoh ini adalah instruktif kerana ia menunjukkan betapa tidak menyukai dan tidak penting untuk mengikis data manual. Walau bagaimanapun, ia juga menunjukkan bahawa proses ini diperlukan untuk pelbagai produk pembelajaran mesin. Walaupun kebanyakan orang membenci kemasukan data, set latihan perlu dipasang dalam beberapa cara. Pakar dalam proses itu sering mencadangkan menggunakan perkhidmatan mengikis web - pada asasnya hanya menyumber luar kerja yang intensif buruh ini kepada pihak luar, tetapi boleh menyebabkan masalah keselamatan dan menyebabkan masalah lain. Apabila menyimpan pengumpulan data manual berfungsi di dalam rumah, sekali lagi, harus ada ketentuan yang dibuat untuk apa yang sering proses yang sangat manual dan memakan waktu.

Dalam beberapa cara, "data manusia mengikis" untuk pembelajaran mesin kelihatan seperti kemasukan data manual yang kadang-kadang perlu dilakukan dalam penghijrahan warisan. Apabila awan menjadi lebih dan lebih popular, dan syarikat meletakkan proses dan aliran kerja mereka ke dalam awan, ada yang mendapati bahawa mereka tidak bekerja melalui aspek praktikal bagaimana untuk mendapatkan data korporat mereka daripada sistem warisan yang terpencil ke aplikasi awan asli. Akibatnya, sesetengah orang yang sebaliknya data saintis atau orang kreatif dengan kemahiran IT penting mendapati diri mereka melakukan tugas kemasukan data yang tidak menyenangkan.

Perkara yang sama mungkin berlaku dengan pembelajaran mesin. Anda mungkin mendengar seorang saintis data yang mengadu bahawa "Saya seorang yang kreatif" atau "Saya berada di bahagian pembangunan" - tetapi seseorang itu perlu melakukan kerja yang kotor.

Sekali lagi, sekiranya aliran kreatif tidak dipadankan dengan penilaian praktikal dari delegasi aliran kerja, akan ada ketidaksesuaian bagaimana pengendalian tugas diarahkan. Apabila syarikat tidak mempunyai orang untuk melakukan kerja-kerja mengikis data dalam mengumpul set data, ia tidak mempunyai bahagian penting dalam rantaian prosedur untuk projek yang berjaya. Perlu berhati-hati dalam masa ini syarikat berusaha untuk membina idea yang berasaskan sekitar membangun aplikasi pembelajaran mesin baru.

Bagaimana data mengikis untuk pembelajaran mesin menjadi hambatan yang paling padat buruh sejak kemasukan data manual dalam penghijrahan warisan?