Q:
Bolehkah terdapat terlalu banyak data dalam data besar?
A:Jawapan kepada soalan itu adalah YES yang bergema. Terdapat benar-benar terlalu banyak data dalam projek data besar.
Terdapat banyak cara di mana ini boleh berlaku, dan pelbagai sebab mengapa profesional perlu mengehadkan dan mengkaji data dalam beberapa cara untuk mendapatkan hasil yang betul. (Baca 10 Big Mitos Mengenai Big Data.)
Secara umum, pakar bercakap tentang membezakan "isyarat" daripada "bunyi" dalam model. Dengan kata lain, dalam data besar laut, data wawasan yang relevan menjadi sukar untuk disasarkan. Dalam sesetengah kes, anda sedang mencari jarum dalam jerami.
Sebagai contoh, anggap sebuah syarikat cuba menggunakan data besar untuk menjana pandangan khusus pada segmen asas pelanggan, dan pembelian mereka dalam jangka waktu tertentu. (Baca Apakah data besar lakukan?)
Mengambil sejumlah besar aset data boleh mengakibatkan pengambilan data rawak yang tidak relevan, atau ia mungkin menghasilkan kecenderungan yang memakan data dalam satu arah atau yang lain.
Ia juga melambatkan proses secara dramatik, kerana sistem pengkomputeran perlu bergelut dengan set data yang lebih besar dan lebih besar.
Dalam pelbagai jenis projek, sangat penting bagi jurutera data untuk mengurus data kepada set data terhad dan tertentu - dalam kes di atas, ini hanya akan data untuk segmen pelanggan yang sedang dikaji, hanya data untuk masa itu bingkai yang dikaji, dan pendekatan yang mengikat pengenalpastian tambahan atau maklumat latar belakang yang boleh mengelirukan perkara atau melambatkan sistem. (Peranan ReadJob: Jurutera Data.)
Untuk lebih lanjut, mari kita lihat bagaimana ini berfungsi di sempadan pembelajaran mesin. (Baca Mesin Pembelajaran 101.)
Pakar-pakar pembelajaran mesin bercakap tentang sesuatu yang dipanggil "overfitting" di mana model yang terlalu rumit membawa kepada hasil yang kurang berkesan apabila program pembelajaran mesin terputus pada data pengeluaran baru.
Terlalu-lambat berlaku apabila satu set titik data yang kompleks cocok dengan latihan awal yang ditetapkan dengan baik, dan tidak mengizinkan program untuk dengan mudah menyesuaikan diri dengan data baru.
Sekarang secara teknikal, overfitting tidak disebabkan oleh adanya terlalu banyak sampel data, tetapi oleh penobatan terlalu banyak titik data. Tetapi anda boleh berhujah bahawa terlalu banyak data boleh menjadi faktor penyumbang kepada masalah jenis ini, juga. Berurusan dengan kutukan of dimensionality melibatkan beberapa teknik yang sama yang telah dilakukan dalam projek-projek data besar sebelum ini sebagai profesional cuba untuk menentukan apa yang mereka makan sistem IT.
Intinya ialah data besar boleh sangat membantu syarikat, atau ia boleh menjadi satu cabaran utama. Salah satu aspek ini ialah sama ada syarikat mempunyai data yang betul dalam permainan. Pakar tahu bahawa tidak dianjurkan untuk hanya membuang semua aset data ke dalam corong dan menghasilkan gambaran seperti itu - dalam sistem data awan asli dan canggih, ada satu usaha untuk mengawal dan mengurus dan mengkurus data untuk mendapatkan lebih tepat dan penggunaan cekap daripada aset data.