Rumah Trend Apa yang $ @! isoop?

Apa yang $ @! isoop?

Isi kandungan:

Anonim

Semua orang bercakap tentang Hadoop, teknologi baru yang sangat berharga di kalangan pemaju dan hanya boleh mengubah dunia (sekali lagi). Tetapi apa pula itu? Adakah bahasa pengaturcaraan? Pangkalan data? Sistem pemprosesan? Teh India yang selesa?


Jawapan luas: Hadoop adalah semua perkara ini (kecuali teh selesa), dan banyak lagi. Ia adalah sebuah perpustakaan perisian yang menyediakan rangka kerja pemrograman untuk pemprosesan yang murah dan berguna dengan kata kunci moden yang lain: data besar.

Di manakah Hadoop berasal?

Apache Hadoop adalah sebahagian daripada Projek Yayasan dari Apache Software Foundation, organisasi nirlaba yang misinya adalah "menyediakan perisian untuk kebaikan masyarakat." Oleh itu, perpustakaan Hadoop adalah perisian percuma, terbuka untuk semua pemaju.


Teknologi yang mendasari Hadoop sebenarnya dicipta oleh Google. Kembali pada hari-hari awal, enjin carian gergasi tidak cukup untuk mengindeks jumlah data yang mereka kumpulkan dari Internet, dan mengubahnya menjadi hasil yang bermakna dan relevan bagi penggunanya. Dengan apa-apa yang terdapat di pasaran yang boleh memenuhi keperluan mereka, Google membina platform mereka sendiri.


Inovasi tersebut dikeluarkan dalam projek sumber terbuka bernama Nutch, yang kemudian digunakan Hadoop sebagai asas. Pada dasarnya, Hadoop menerapkan kekuatan Google untuk data besar dengan cara yang mampu dimiliki oleh semua saiz syarikat.

Bagaimanakah kerja Hadoop?

Seperti yang dinyatakan sebelum ini, Hadoop bukan satu perkara - ia banyak perkara. Perpustakaan perisian Hadoop terdiri daripada empat bahagian utama (modul), dan beberapa penyelesaian tambahan (seperti pangkalan data dan bahasa pengaturcaraan) yang meningkatkan penggunaan dunia nyata. Empat modul adalah:

  • Hadoop Common: Ini adalah koleksi utiliti biasa (perpustakaan umum) yang menyokong modul Hadoop.
  • Sistem Fail Teragih Hadoop (HDFS): Sistem fail teragih yang mantap tanpa sekatan ke atas data yang disimpan (yang bermaksud bahawa data boleh sama ada berstruktur atau tidak berstruktur dan skema, di mana banyak DFS hanya menyimpan data berstruktur) yang menyediakan akses tinggi melalui redundansi ( HDFS membolehkan data disimpan di berbilang mesin-jadi jika satu mesin gagal, ketersediaan dikekalkan melalui mesin lain).
  • Hadoop YARN: Rangka kerja ini bertanggungjawab untuk penjadualan kerja dan pengurusan sumber kluster; ia memastikan data disebarkan dengan mencukupi ke atas pelbagai mesin untuk mengekalkan kelebihan. YARN adalah modul yang menjadikan Hadoop sebagai cara yang berpatutan dan cekap untuk memproses data besar.
  • Hadoop MapReduce: Sistem berasaskan YARN ini, dibina di atas teknologi Google, menjalankan pemprosesan selari set data besar (berstruktur dan tidak berstruktur). MapReduce juga boleh didapati dalam kebanyakan rangka kerja pemprosesan data hari ini, termasuk pangkalan data MPP dan NoSQL.
Semua modul yang bekerja bersama-sama menjana pemprosesan diedarkan untuk set data yang besar. Rangka kerja Hadoop menggunakan model pengaturcaraan mudah yang direplikasi di seluruh kelompok komputer, yang bermaksud sistem dapat meningkatkan dari pelayan tunggal ke ribuan mesin untuk peningkatan daya pemprosesan, dan bukan bergantung pada perkakasan sahaja.


Perkakasan yang boleh mengendalikan jumlah kuasa pemprosesan yang diperlukan untuk bekerja dengan data besar adalah mahal, untuk meletakkannya dengan sedikit. Ini adalah inovasi sebenar Hadoop: keupayaan untuk memecah sejumlah besar kuasa pemprosesan merentas pelbagai, mesin yang lebih kecil, masing-masing dengan pengiraan dan penyimpanan tempatannya sendiri, bersama dengan redundansi terbina dalam pada tahap permohonan untuk mengelakkan kegagalan.

Apa yang dilakukan oleh Hadoop?

Secara ringkasnya, Hadoop menjadikan data besar dapat diakses dan boleh digunakan untuk semua orang.


Sebelum Hadoop, syarikat yang menggunakan data besar kebanyakannya mempunyai pangkalan data relasi dan gudang data perusahaan (yang menggunakan perkakasan mahal yang banyak). Walaupun alat ini sangat baik untuk memproses data berstruktur - iaitu data yang sudah disusun dan teratur dengan cara yang dapat diuruskan - kapasiti untuk memproses data tidak terstruktur sangat terhad, sehingga praktikalnya tidak wujud. Untuk dapat digunakan, data perlu disusun terlebih dahulu supaya ia dapat dipasangkan dengan kemas ke dalam jadual.


Rangka kerja Hadoop mengubah keperluan itu, dan tidak begitu murah. Dengan Hadoop, sejumlah besar data dari 10 hingga 100 gigabait dan ke atas, berstruktur dan tidak berstruktur, boleh diproses menggunakan pelayan biasa (komoditi).


Hadoop membawa aplikasi data besar yang berpotensi untuk perniagaan dari semua saiz, dalam setiap industri. Rangka kerja sumber terbuka membolehkan syarikat kewangan membuat model canggih untuk penilaian portfolio dan analisis risiko, atau peruncit dalam talian untuk menyempurnakan jawapan carian mereka dan menunjuk pelanggan ke arah produk yang mereka lebih cenderung untuk membeli.


Dengan Hadoop, kemungkinannya tidak terbatas.

Apa yang $ @! isoop?