Rumah Audio Analisis Hadoop: tidak begitu mudah merentasi pelbagai sumber data

Analisis Hadoop: tidak begitu mudah merentasi pelbagai sumber data

Isi kandungan:

Anonim

Hadoop adalah tempat yang baik untuk memuat turun data untuk pemprosesan analisis atau untuk memodelkan jumlah besar sumber data tunggal yang tidak mungkin dengan sistem yang ada. Walau bagaimanapun, apabila syarikat-syarikat membawa data dari banyak sumber ke Hadoop, terdapat permintaan yang semakin meningkat untuk analisis data merentasi sumber yang berbeza, yang boleh menjadi sangat sukar dicapai. Siaran ini adalah yang pertama dalam siri tiga bahagian yang menerangkan isu-isu organisasi menghadapi, kerana mereka cuba menganalisis sumber data yang berbeza dan jenis dalam Hadoop, dan bagaimana untuk menyelesaikan cabaran-cabaran ini. Siaran hari ini memberi tumpuan kepada masalah yang berlaku apabila menggabungkan pelbagai sumber dalaman. Dua jawatan berikut menjelaskan mengapa masalah ini meningkat dalam kerumitan, sebagai sumber data luaran ditambah, dan bagaimana pendekatan baru dapat membantu menyelesaikannya.

Data Daripada Sumber yang Berbeza Tidak Sambung dan Peta

Data dari pelbagai sumber mempunyai struktur yang berbeza yang menjadikannya sukar untuk menyambung dan memetakan jenis data bersama-sama, walaupun data dari sumber dalaman. Menggabungkan data boleh menjadi sangat sukar jika pelanggan mempunyai beberapa nombor akaun atau organisasi telah memperoleh atau bergabung dengan syarikat lain. Sepanjang beberapa tahun yang lalu, sesetengah organisasi telah cuba menggunakan data penemuan atau aplikasi sains data untuk menganalisis data dari pelbagai sumber yang disimpan di Hadoop. Pendekatan ini bermasalah kerana ia melibatkan banyak tekaan: pengguna perlu menentukan kekunci asing untuk digunakan untuk menyambungkan pelbagai sumber data dan membuat andaian apabila membuat model data overlays. Teka-teki ini sukar untuk diuji dan seringkali salah apabila digunakan pada skala, yang membawa kepada analisis data yang salah dan ketidakpercayaan sumber.

Pakar Hadoop Cuba Menggabungkan Data Bersama

Oleh itu, organisasi yang mahu menganalisis data merentas sumber data telah mengambil pakar Hadoop untuk membuat skrip khusus dan sumber khusus untuk menggabungkan set data bersama. Pakar-pakar Hadoop ini biasanya bukan penyepaduan data atau pakar penyelesaian entiti, tetapi mereka melakukan yang terbaik untuk menangani keperluan segera organisasi. Pakar-pakar ini biasanya menggunakan Babi atau Java untuk menulis peraturan yang keras dan cepat yang menentukan cara menggabungkan data berstruktur dari sumber tertentu, misalnya rekod yang sepadan berdasarkan nombor akaun. Sekali skrip untuk dua sumber telah ditulis, jika sumber ketiga perlu ditambah, skrip pertama harus dibuang dan skrip baru direka untuk menggabungkan tiga sumber tertentu. Perkara yang sama berlaku jika sumber lain ditambah dan sebagainya. Bukan sahaja pendekatan ini tidak cekap, tetapi ia juga gagal apabila diterapkan pada skala, mengendalikan kes-kes kelebihan buruk, boleh mengakibatkan sejumlah besar rekod pendua, dan sering menyatukan banyak rekod yang tidak boleh digabungkan.

Analisis Hadoop: tidak begitu mudah merentasi pelbagai sumber data