Q:
Bagaimanakah saya boleh belajar menggunakan Hadoop untuk menganalisis data besar?
A:Perisian Apache yang dikenali sebagai Hadoop menjadi sumber yang sangat popular untuk menangani set data besar. Rangka kerja perisian pengendalian data jenis ini dibina untuk membantu mengagregat data dalam cara tertentu, berdasarkan reka bentuk yang mungkin membuat beberapa jenis projek data lebih efisien. Yang berkata, Hadoop adalah hanya satu daripada banyak alat untuk menangani set data besar.
Salah satu cara pertama dan paling asas untuk mempelajari analisis data besar dengan Hadoop adalah memahami beberapa komponen peringkat atas Hadoop dan apa yang dilakukannya. Ini termasuk platform pengurusan sumber "Hadoop YARN" yang boleh digunakan pada beberapa jenis rangkaian tertentu, serta Peta HadoopMembuat fungsi yang digunakan untuk set data besar. Terdapat juga sistem fail diedarkan Hadoop (HDFS), yang membantu menyimpan data di seluruh sistem yang diedarkan supaya ia boleh diindeks dengan pantas dan cekap atau diperolehi semula.
Di luar ini, mereka yang ingin menjadi lebih akrab dengan Hadoop dapat melihat sumber yang diterbitkan secara individu untuk para profesional yang menerangkan perisian tersebut pada tahap yang rela. Contoh ini dari Chris Stucchio di blog peribadi menyediakan satu set mata yang sangat baik tentang Hadoop dan skala data. Salah satu asas asas ialah Hadoop mungkin lebih biasa digunakan daripada yang diperlukan, dan mungkin bukan penyelesaian terbaik untuk projek individu. Mengkaji semula jenis sumber ini akan membantu profesional menjadi lebih akrab dengan perincian penggunaan Hadoop dalam senario tertentu. Stucchio juga menyediakan metafora untuk mengaitkan fungsi Hadoop kepada tugas fizikal tertentu. Di sini, contohnya menghitung bilangan buku dalam perpustakaan, sedangkan fungsi Hadoop mungkin memecah perpustakaan itu ke dalam seksyen, memberikan bilangan individu yang dicampur menjadi satu hasil data agregat.
Cara yang lebih mendalam bahawa para profesional dapat mempelajari lebih lanjut tentang Hadoop dan aplikasinya untuk data besar adalah melalui sumber dan program latihan tertentu. Contohnya, syarikat pembelajaran dalam talian Cloudera, penyedia latihan jarak jauh yang terkemuka, mempunyai beberapa pilihan menarik di sekitar penggunaan Hadoop dan jenis pengendalian data yang serupa.