Isi kandungan:
Apache Hadoop telah menjadi asas bagi aplikasi data besar untuk masa yang lama sekarang, dan dianggap sebagai platform data asas untuk semua penawaran yang berkaitan dengan data besar. Walau bagaimanapun, pangkalan data dalam memori dan pengiraan semakin popular kerana prestasi yang lebih cepat dan hasil yang cepat. Apache Spark adalah rangka kerja baru yang menggunakan keupayaan ingatan untuk menyampaikan pemprosesan yang cepat (hampir 100 kali lebih cepat daripada Hadoop). Oleh itu, produk Spark semakin digunakan dalam dunia data besar, dan terutamanya untuk pemprosesan yang lebih cepat.
Webinar: Kuasa Cadangan: Bagaimana Katalog Data Memperkasakan Penganalisis Daftar disini |
Apakah Apache Spark?
Apache Spark adalah kerangka sumber terbuka untuk memproses jumlah besar data (data besar) dengan kelajuan dan kesederhanaan. Ia sesuai untuk aplikasi analisis berdasarkan data besar. Spark boleh digunakan dengan persekitaran Hadoop, mandiri atau di awan. Ia telah dibangunkan di University of California dan kemudiannya ditawarkan kepada Yayasan Perisian Apache. Oleh itu, ia dimiliki oleh komuniti sumber terbuka dan boleh menjadi sangat kos efektif, yang seterusnya membolehkan pemaju amatur untuk bekerja dengan mudah. (Untuk mengetahui lebih lanjut mengenai sumber terbuka Hadoop, lihat Apakah Pengaruh Sumber Terbuka pada Ekosistem Apache Hadoop?)
Tujuan utama Spark ialah ia menawarkan pemaju dengan kerangka aplikasi yang berfungsi di sekitar struktur data berpusat. Spark juga sangat kuat dan mempunyai keupayaan bawaan untuk memproses jumlah data secara besar-besaran dalam masa yang singkat, dengan itu menawarkan prestasi yang sangat baik. Ini menjadikannya lebih cepat daripada yang dikatakan pesaing terdekatnya, Hadoop.