Rumah Trend 7 Perkara yang perlu diketahui tentang hadoop

7 Perkara yang perlu diketahui tentang hadoop

Isi kandungan:

Anonim

Apa itu Hadoop? Ia adalah gajah mainan kuning. Bukan apa yang anda harapkan? Bagaimana dengan ini: Doug Cutting - pencipta bersama projek perisian sumber terbuka ini - meminjam nama anaknya yang memanggil gajah mainannya Hadoop. Ringkasnya, Hadoop adalah rangka kerja perisian yang dibangunkan oleh Yayasan Perisian Apache yang digunakan untuk mengembangkan komputasi teragih data, yang diedarkan. Dan itu komponen utama dalam pembaca kata kunci yang lain tidak akan pernah kelihatan cukup: data besar. Berikut adalah tujuh perkara yang perlu anda ketahui mengenai perisian yang unik dan bebas ini.

Bagaimanakah Hadoop bermula?

Dua belas tahun yang lalu, Google telah membina platform untuk memanipulasi jumlah besar data yang dikumpulkannya. Seperti yang sering dilakukan syarikat, Google membuat reka bentuknya tersedia kepada orang awam dalam bentuk dua kertas kerja: Sistem Fail Google dan MapReduce.


Pada masa yang sama, Doug Cutting dan Mike Cafarella sedang bekerja di Nutch, sebuah enjin carian baru. Kedua-duanya juga bergelut dengan cara mengendalikan sejumlah besar data. Kemudian kedua penyelidik mendapat angin kertas Google. Persimpangan yang bernasib baik mengubah segala-galanya dengan memperkenalkan Cutting and Cafarella kepada sistem fail yang lebih baik dan cara untuk menjejaki data, yang akhirnya membawa kepada penciptaan Hadoop.

Apa yang penting mengenai Hadoop?

Hari ini, mengumpul data lebih mudah berbanding sebelum ini. Mempunyai semua data ini memberikan banyak peluang, tetapi ada juga cabaran:

  • Jumlah data yang besar memerlukan kaedah pemprosesan yang baru.
  • Data yang ditangkap adalah dalam format tidak tersusun.
Untuk mengatasi cabaran memanipulasi kuantiti data tak berstruktur, Cutting and Cafarella menghasilkan penyelesaian dua bahagian. Untuk menyelesaikan masalah kuantiti data, Hadoop menggunakan persekitaran yang diedarkan - rangkaian pelayan komoditi - mewujudkan kelompok pemprosesan selari, yang membawa lebih banyak kuasa pemprosesan untuk menanggung tugas yang diberikan.


Seterusnya, mereka perlu menangani data atau data yang tidak berstruktur dalam format yang sistem pangkalan data relasi standard tidak dapat dikendalikan. Keratan dan Cafarella yang direka Hadoop untuk bekerja dengan mana-mana jenis data: berstruktur, tidak berstruktur, imej, fail audio, bahkan teks. Kertas putih Cloudera (integrator Hadoop) menjelaskan mengapa ini penting:

    "Dengan membuat semua data anda boleh digunakan, bukan hanya apa yang ada dalam pangkalan data anda, Hadoop membolehkan anda mengungkap hubungan tersembunyi dan mendedahkan jawapan yang selalu tidak dapat dijangkau. Anda boleh mula membuat keputusan lebih lanjut berdasarkan data keras, bukannya firasat, dan melihat pada set data lengkap, bukan hanya sampel dan ringkasan. "

Apakah Skema dibaca?

Seperti yang dinyatakan sebelum ini, salah satu kelebihan Hadoop adalah keupayaannya untuk mengendalikan data tidak berstruktur. Dalam erti kata, itu adalah "menendang boleh ke bawah jalan." Akhirnya data memerlukan beberapa jenis struktur untuk menganalisisnya.


Itulah di mana skema pada bacaan dimulakan. Skema yang dibaca adalah peletakan format data yang ada di mana, untuk mencari data (ingat bahawa data tersebar di antara beberapa pelayan), dan apa yang perlu dilakukan pada data - bukan tugas mudah. Sudah dikatakan bahawa memanipulasi data dalam sistem Hadoop memerlukan kemahiran penganalisis perniagaan, ahli statistik dan programmer Java. Malangnya, tidak ramai orang yang mempunyai kelayakan tersebut.

Apa itu sarang?

Sekiranya Hadoop akan berjaya, bekerjasama dengan data perlu dipermudahkan. Oleh itu, orang ramai sumber terbuka dapat bekerja dan membuat Hive:

    "Hive menyediakan mekanisme untuk struktur projek ke data ini dan menanyakan data menggunakan bahasa semacam SQL yang dipanggil HiveQL. Pada masa yang sama bahasa ini juga membolehkan peta tradisional / mengurangkan pengaturcara untuk memasangkan pemetaan dan reduksi tersuai mereka apabila ia menyusahkan atau tidak cekap untuk menyatakan logik ini dalam HiveQL. "

Sarang membolehkan yang terbaik dari kedua-dua dunia: kakitangan pangkalan data yang biasa dengan arahan SQL dapat memanipulasi data, dan pemaju yang biasa dengan skema pada proses baca masih dapat membuat pertanyaan khusus.

Apakah jenis data yang dianalisis Hadoop?

Analisis web adalah perkara pertama yang masuk ke dalam fikiran, menganalisis log Web dan lalu lintas Web untuk mengoptimumkan laman web. Sebagai contoh, Facebook pasti menjadi analisis Web, menggunakan Hadoop untuk mengurutkan terabytes data yang terkumpul oleh syarikat.


Syarikat menggunakan kluster Hadoop untuk melakukan analisis risiko, pengesanan penipuan dan segmentasi pelanggan. Syarikat utiliti menggunakan Hadoop untuk menganalisis data sensor dari grid elektrik mereka, membolehkan mereka mengoptimumkan pengeluaran elektrik. Syarikat utama seperti Target, 3M dan Medtronics menggunakan Hadoop untuk mengoptimumkan pengedaran produk, penilaian risiko perniagaan dan segmentasi pelanggan.


Universiti juga dilaburkan di Hadoop. Brad Rubin, seorang profesor bersekutu di Program Graduan Universiti St. Thomas dalam Perisian, menyebut bahawa kepakaran Hadoopnya membantu menyusun jumlah data yang banyak disusun oleh kumpulan penyelidikan di universiti.

Bolehkah anda memberikan contoh sebenar Hadoop?

Salah satu contoh yang lebih terkenal ialah TimesMachine. The New York Times mempunyai kumpulan akhbar TIFF akhbar laman penuh, metadata yang berkaitan, dan teks artikel dari tahun 1851 hingga 1922 yang berjumlah terabyte data. NYT's Derek Gottfrid, menggunakan sistem EC2 / S3 / Hadoop dan kod khusus, :

    "Memodelkan 405, 000 imej TIFF yang sangat besar, 3.3 juta artikel di SGML dan 405, 000 artikel pemetaan fail xml ke kawasan segi empat tepat di TIFFs. Data ini ditukar ke 810, 000 imej PNG yang lebih mesra web (thumbnail dan imej penuh) dan 405, 000 fail JavaScript. "

Menggunakan pelayan di awan Web Services Amazon, Gottfrid menyatakan mereka dapat memproses semua data yang diperlukan untuk TimesMachine dalam masa kurang dari 36 jam.

Adakah Hadoop sudah usang atau hanya morphing?

Hadoop telah wujud lebih dari satu dekad sekarang. Itu banyak yang mengatakan ia usang. Seorang pakar, Dr. David Rico, berkata bahawa "Produk IT adalah jangka pendek. Dalam tahun-tahun anjing, produk Google adalah sekitar 70, manakala Hadoop adalah 56."


Mungkin ada kebenaran kepada apa kata Rico. Nampaknya Hadoop sedang mengalami baik pulih besar. Untuk mengetahui lebih lanjut mengenainya, Rubin menjemput saya ke mesyuarat Kumpulan Pengguna Hadoop Twin Cities, dan topik perbincangan adalah Pengenalan kepada YARN:

    "Apache Hadoop 2 termasuk enjin MapReduce baru, yang mempunyai beberapa kelebihan terhadap pelaksanaan sebelumnya, termasuk skalabilitas dan penggunaan sumber yang lebih baik. Pelaksanaan baru dibina di atas sistem pengurusan sumber umum untuk menjalankan aplikasi diedar yang dipanggil YARN."
Hadoop mendapat banyak buzz dalam pangkalan data dan pengurusan kandungan bulatan, tetapi masih terdapat banyak persoalan di sekelilingnya dan bagaimana ia dapat digunakan dengan sebaik mungkin. Ini hanya beberapa. Sekiranya anda mempunyai lebih banyak, hantarkannya kepada kami. Kami akan menjawab yang terbaik di Techopedia.com.

7 Perkara yang perlu diketahui tentang hadoop