Isi kandungan:
- Mitos: Semua orang mendahului kita dalam menerima data besar.
- Mitos: Kami mempunyai banyak data; kita tidak perlu risau tentang setiap kecacatan data yang sedikit.
- Mitos: Teknologi data yang besar akan menghilangkan keperluan integrasi data.
- Mitos: Menggunakan gudang data untuk analisis lanjutan tidak berguna.
- Mitos: Tasik data akan menggantikan gudang data.
- Kerja Data Big - Kaedah Manipulasi Data Baru Mungkin Tidak
Kembali pada bulan Mei 2014, Penyelidikan Forrester mengeluarkan dua laporan mengenai kesimpulan tertentu mengenai berita gembira yang mengelilingi data besar. Firma penyelidikan itu meninjau lebih daripada 250 eksekutif pemasaran dan perniagaan. Menurut penulis laporan, retorik data besar berada pada masa yang sangat tinggi, dan vendor teknologi memuji produk dengan apa yang kelihatannya tuntutan yang luar biasa.
Gartner bersetuju dengan Penyelidikan Forrester; gembar-gembur besar mengelilingi data besar. Dalam laporan September 2014, Gartner menyalahgunakan lima daripada mitos data terbesar, dan penganalisis Gartner menawarkan pendapat mereka tentang apa yang salah faham tentang data besar dan manipulasinya. Jadi apa yang paling besar mitos terbesar data? Mari kita lihat.
Mitos: Semua orang mendahului kita dalam menerima data besar.
Gartner berkata kepentingan dalam data besar berada pada tahap tertinggi sepanjang masa. Walaupun begitu, 13 peratus daripada mereka yang ditinjau mempunyai sistem kerja. Alasannya: kebanyakan syarikat masih belum mengetahui bagaimana untuk meminjam sebarang nilai dari repositori besar data. Di sini, kaji selidik Gartner lebih optimis daripada laporan Forrester, yang mendapati hanya 9 peratus daripada peserta tinjauan mengatakan mereka merancang untuk melaksanakan data-data besar dalam tahun depan. (Data besar mempunyai tawaran yang banyak. Ketahui lebih lanjut dalam 5 Masalah Dunia-Real Big Data Boleh Selesaikan.)Mitos: Kami mempunyai banyak data; kita tidak perlu risau tentang setiap kecacatan data yang sedikit.
Gartner bimbang tentang fenomena manusia yang kita dapat: "Kami mempunyai banyak perkara, sedikit yang buruk tidak akan menjadi masalah." Ted Friedman, naib presiden dan penganalisis terkenal di Gartner percaya bahawa ini adalah cara yang salah untuk melihat keadaan.
"Malah, walaupun setiap kecacatan individu mempunyai impak yang lebih kecil pada keseluruhan dataset berbanding dengan data yang kurang, terdapat lebih banyak kesilapan daripada sebelumnya kerana terdapat lebih banyak data, " kata Friedman. "Oleh itu, impak keseluruhan data berkualiti rendah pada keseluruhan dataset tetap sama."
Friedman menambah sebab lain untuk kebimbangan. Penangkapan besar data sering merangkumi data dari luar perniagaan, oleh itu struktur dan asal tidak diketahui. Ini meningkatkan potensi untuk kesilapan.
Mitos: Teknologi data yang besar akan menghilangkan keperluan integrasi data.
Terdapat dua strategi analisis data utama yang boleh digunakan untuk data besar: "skema pada menulis" atau "skema pada bacaan." Sehingga baru-baru ini, skema pada menulis adalah satu-satunya kaedah yang digunakan. Skema baca adalah kegilaan semasa dalam pengurusan pangkalan data. Tidak seperti skema pada tulisan, yang memerlukan format berstruktur, data dimuatkan ke dalam pangkalan data skema pada format mentahnya. Kemudian pemaju - menggunakan platform pangkalan data yang tidak tersusun seperti Hadoop - membengkokkan data yang berbeza ke dalam format yang boleh digunakan. Skema pada bacaan mempunyai kelebihan jelas tetapi, seperti yang disebutkan oleh Gartner, integrasi data harus berlaku pada satu ketika.Mitos: Menggunakan gudang data untuk analisis lanjutan tidak berguna.
Membelanjakan masa untuk mencipta gudang data seolah-olah sia-sia kepada banyak pengurus maklumat, terutamanya apabila data yang baru ditangkap adalah berbeza daripada yang di dalam gudang data. Bagaimanapun, Gartner sekali lagi memberi amaran walaupun analisis data canggih akan menggunakan gudang data dan data baru, yang bermaksud penyepadu data mesti:- Sempurnakan jenis data baru untuk menjadikannya sesuai untuk analisis
- Memutuskan data yang relevan, dan tahap kualiti data yang diperlukan
- Tentukan cara mengagregasikan data
- Memahami bahawa penambahbaikan data boleh berlaku di tempat selain daripada gudang data
Mitos: Tasik data akan menggantikan gudang data.
Tasik data adalah repositori data yang berbeza, berbanding dengan gudang data di mana data berada dalam format berstruktur. Mewujudkan tasik data memerlukan usaha awal (tidak perlu memformat data) berbanding dengan gudang data, sebab itu tasik data sangat menarik.
Gartner menekankan bahawa memiliki data bukanlah titik - dapat memanipulasi data yang diambil untuk membuat keputusan yang tepat. Selain itu, menggunakan tasik data (agak tidak terbukti) untuk memudahkan pengambilan keputusan adalah bermasalah.
"Gudang data sudah mempunyai keupayaan untuk menyokong pelbagai pengguna di seluruh organisasi, " kata Nick Heudecker, pengarah penyelidikan di Gartner. "Pemimpin pengurusan maklumat tidak perlu menunggu tasik data untuk mengejar." (Ketahui lebih lanjut mengenai mengadaptasikan data besar dalam 7 Perkara Yang Harus Anda Ketahui Mengenai Data Besar Sebelum Penggunaan.)
Kerja Data Big - Kaedah Manipulasi Data Baru Mungkin Tidak
Alasannya Gartner berkata "mitos-mitos data terbesar" dan bukannya "mitos besar-besaran" menjadi jelas setelah membaca laporan itu. Gartner tidak mencuri data besar. Gartner curiga mereka yang merasakan kaedah baru memanipulasi data besar sedia untuk "waktu utama."