Rumah Trend Bagaimana hadoop membantu menyelesaikan masalah data besar

Bagaimana hadoop membantu menyelesaikan masalah data besar

Isi kandungan:

Anonim

Data besar … baik … saiz besar! Tepat berapa banyak data yang boleh diklasifikasikan sebagai data besar tidak dipotong dengan jelas, oleh itu janganlah terjebak dalam perdebatan itu. Untuk sebuah syarikat kecil yang digunakan untuk menangani data dalam gigabait, 10 TB data akan menjadi BESAR. Walau bagaimanapun bagi syarikat seperti Facebook dan Yahoo, petabytes adalah besar.


Hanya saiz data besar, menjadikannya mustahil (atau sekurang-kurangnya biaya yang menghalangi) untuk menyimpannya dalam penyimpanan tradisional seperti pangkalan data atau penggubah konvensional. Kami bercakap mengenai kos untuk menyimpan gigabait data. Menggunakan pemformat storan tradisional boleh menelan belanja banyak untuk menyimpan data besar.


Di sini kita akan melihat data besar, cabarannya, dan bagaimana Hadoop boleh membantu menyelesaikannya. Pertama, cabaran terbesar data besar.


Data Besar Tidak Berstruktur atau Semi-Struktur

Banyak data besar tidak tersusun. Sebagai contoh, klik data log aliran mungkin kelihatan seperti:


setem masa, user_id, halaman, referrer_page


Kekurangan struktur menjadikan pangkalan data hubungan tidak sesuai untuk menyimpan data besar. Selain itu, tidak banyak pangkalan data dapat menangani penyimpanan berbilion-bilion baris data.

Tidak Ada Titik dalam Penyimpanan Data Besar Jika Kami Tidak Boleh Memprosesnya

Menyimpan data besar adalah sebahagian daripada permainan. Kami perlu memprosesnya untuk mengetahui kecerdasan saya. Sistem storan tradisional cukup "bodoh" "dalam erti kata bahawa mereka hanya menyimpan bit. Mereka tidak menawarkan sebarang kuasa pemprosesan.


Model pemprosesan data tradisional mempunyai data yang tersimpan dalam cluster penyimpanan, yang disalin ke dalam kumpulan kumpulkan untuk diproses. Hasilnya ditulis kembali ke cluster penyimpanan.


Model ini, bagaimanapun, tidak cukup berfungsi untuk data besar kerana menyalin banyak data ke dalam kluster pengiraan mungkin terlalu memakan masa atau tidak mungkin. Jadi apa jawapannya?


Satu penyelesaian ialah memproses data besar di tempat, seperti dalam cluster penyimpanan dua kali ganda sebagai cluster comput.


Jadi seperti yang kita lihat di atas, data besar menentang penyimpanan tradisional. Jadi bagaimana kita mengendalikan data besar?

Bagaimana Hadoop Menyelesaikan Masalah Data Besar

Hadoop dibina untuk dijalankan pada kelompok mesin

Mari mulakan dengan contoh. Katakan kita perlu menyimpan banyak foto. Kami akan mulakan dengan cakera tunggal. Apabila kita melebihi cakera tunggal, kita boleh menggunakan beberapa cakera yang disusun pada mesin. Apabila kita max keluar semua cakera pada mesin tunggal, kita perlu mendapatkan banyak mesin, masing-masing dengan sekumpulan cakera.


Inilah cara Hadoop dibina. Hadoop direka untuk berjalan pada satu kelompok mesin dari perjalanan.



Kelompok Hadoop skala secara mendatar

Lebih banyak storan dan kuasa pengiraan dapat dicapai dengan menambahkan lebih banyak nod ke cluster Hadoop. Ini menghilangkan keperluan untuk membeli perkakasan yang lebih banyak dan lebih kuat dan mahal.


Hadoop boleh mengendalikan data tidak berstruktur / separa berstruktur

Hadoop tidak menguatkuasakan skema pada data yang disimpannya. Ia boleh menangani teks dan data perduaan sewenang-wenangnya. Jadi Hadoop dapat mencerna sebarang data tidak tersusun dengan mudah.


Kelompok Hadoop menyediakan penyimpanan dan pengkomputeran

Kami melihat bagaimana penyimpanan storan penyimpanan dan pemprosesan berasingan tidak sesuai untuk data besar. Kelompok Hadoop, bagaimanapun, menyediakan penyimpanan dan pengkomputeran diedarkan semuanya dalam satu.

Kes Perniagaan untuk Hadoop

Hadoop menyediakan storan untuk data besar pada kos yang berpatutan

Menyimpan data besar menggunakan storan tradisional boleh mahal. Hadoop dibina di sekitar perkakasan komoditi, jadi ia boleh memberikan simpanan yang cukup besar untuk kos yang munasabah. Hadoop telah digunakan di lapangan pada skala petabyte.


Satu kajian oleh Cloudera menunjukkan bahawa perusahaan biasanya membelanjakan sekitar $ 25, 000 hingga $ 50, 000 per terabyte setahun. Dengan Hadoop, kos ini jatuh kepada beberapa ribu dolar per terabyte setahun. Kerana perkakasan mendapat lebih murah dan lebih murah, kos ini terus menurun.


Hadoop membolehkan penangkapan data baru atau lebih

Kadang-kadang organisasi tidak menangkap jenis data kerana terlalu mahal untuk menyimpannya. Oleh kerana Hadoop menyediakan storan pada kos yang munasabah, jenis data ini boleh ditangkap dan disimpan.


Satu contohnya ialah log klik laman web. Kerana jumlah log ini boleh menjadi sangat tinggi, tidak banyak organisasi menangkap ini. Sekarang dengan Hadoop adalah mungkin untuk menangkap dan menyimpan kayu balak.


Dengan Hadoop, anda boleh menyimpan data lebih lama

Untuk menguruskan jumlah data yang disimpan, syarikat secara berkala menghapus data lama. Sebagai contoh, hanya log untuk tiga bulan yang lalu boleh disimpan, sementara log yang lebih tua telah dipadamkan. Dengan Hadoop adalah mungkin untuk menyimpan data sejarah lebih lama. Ini membolehkan analitik baru dilakukan pada data sejarah yang lebih lama.


Sebagai contoh, ambil log klik dari laman web. Beberapa tahun yang lalu, balak-balak ini disimpan untuk tempoh masa yang singkat untuk mengira statistik seperti halaman popular. Kini dengan Hadoop, ia dapat menyimpan log klik ini untuk jangka waktu yang lama.


Hadoop menyediakan analisis berskala

Tidak ada gunanya menyimpan semua data ini jika kita tidak dapat menganalisisnya. Hadoop bukan sahaja menyediakan storan terdistribusi, tetapi juga pemprosesan diedarkan juga, yang bermaksud kita dapat mengiritasi jumlah data yang banyak secara selari. Rangka kerja komputasi Hadoop dipanggil MapReduce. MapReduce telah terbukti pada skala petabytes.


Hadoop menyediakan analisis kaya

Peta asliReduce menyokong Java sebagai bahasa pengaturcaraan utama. Bahasa lain seperti Ruby, Python dan R boleh digunakan juga.


Sudah tentu, menulis kod MapReduce adat bukan satu-satunya cara untuk menganalisis data dalam Hadoop. Peta Tahap Tinggi yang lebih rendah boleh didapati. Sebagai contoh, alat bernama Pig mengambil Bahasa Inggeris seperti bahasa aliran data dan menterjemahkannya ke MapReduce. Alat lain, Hive, mengambil pertanyaan SQL dan menjalankannya menggunakan MapReduce.


Alat perisikan perniagaan (BI) boleh memberikan analisis tahap yang lebih tinggi lagi. Terdapat alat untuk analisis jenis ini juga.


Kandungan ini dikutip dari "Hadoop Illuminated" oleh Mark Kerzner dan Sujee Maniyam. Ia telah disediakan melalui Lesen Creative Commons Attribution-NonCommercial-ShareAlike 3.0 Unported.

Bagaimana hadoop membantu menyelesaikan masalah data besar