Rumah Perkakasan Besi besar, memenuhi data besar: membebaskan data kerangka utama dengan hadoop dan percikan api

Besi besar, memenuhi data besar: membebaskan data kerangka utama dengan hadoop dan percikan api

Anonim

Dengan Staff Techopedia, 2 Jun 2016

Takeaway: Ekosistem Hadoop sedang digunakan di mainframe untuk memproses data besar dengan cepat dan cekap.

Anda tidak log masuk sekarang. Sila log masuk atau mendaftar untuk melihat video.

Eric Kavanagh: Baik wanita dan lelaki, ia adalah pukul empat Timur pada hari Khamis, dan hari ini bermakna sudah tentu masa untuk Teknologi Hot. Ya memang, nama saya ialah Eric Kavanagh. Saya akan menjadi moderator anda untuk seminar web hari ini. Ia baik, orang, "Big Iron, Meet Big Data" - Saya hanya suka tajuk utama - "Membebaskan Data Mainframe dengan Hadoop dan Spark." Kami akan membincangkan tentang lama bertemu baru. Wow! Kami merangkumi spektrum segala yang telah kita bincangkan dalam 50 tahun terakhir IT perusahaan. Spark memenuhi kerangka utama, saya suka.

Terdapat tempat mengenai anda yang benar dan cukup tentang saya. Tahun ini panas. Kami bercakap tentang topik hangat dalam siri ini kerana kami benar-benar cuba membantu orang memahami disiplin tertentu, ruang tertentu. Apa maksudnya, sebagai contoh, mempunyai platform analitik? Apakah yang dimaksudkan untuk membebaskan data besar dari mainframe? Apa maksud semua ini? Kami cuba membantu anda memahami jenis teknologi yang tertentu, di mana ia sesuai dengan campuran dan bagaimana anda boleh menggunakannya.

Kami mempunyai dua penganalisis hari ini dan kemudian sudah tentu Tendü Yogurtçu Syncsort. Dia seorang yang berwawasan di ruang kami, sangat gembira untuk mempunyai dia dalam talian hari ini, dengan Dez Blanchfield dan Dr Robin Bloor kita sendiri. Saya akan mengatakan hanya beberapa kata cepat. Satu adalah, orang-orang, anda memainkan peranan yang besar dalam proses ini, jadi jangan malu bertanya soalan yang baik. Kami ingin mendapatkannya semasa komponen Q & A di webcast, yang biasanya di hujung acara. Dan yang saya katakan ialah kita mempunyai banyak kandungan yang baik, jadi saya teruja untuk mendengar apa yang dikatakan anak-anak lelaki ini. Dan dengan itu, saya akan menyerahkannya kepada Dez Blanchfield. Dez, lantai adalah milik kamu, ambilnya.

Dez Blanchfield: Terima kasih, Eric, dan terima kasih semua orang untuk menghadiri hari ini. Jadi saya sangat teruja apabila saya mendapat peluang untuk bercakap mengenai salah satu perkara kegemaran saya di dunia, mainframe. Mereka tidak banyak mengasihi hari ini. Pandangan saya ialah kerangka utama adalah platform data besar asal. Sesetengah orang berpendapat bahawa mereka adalah satu-satunya komputer pada masa itu dan itu satu titik yang wajar untuk dibuat, tetapi selama lebih dari 60 tahun sekarang mereka benar-benar sebenarnya adalah bilik enjin mengenai data besar yang pernah menjadi popular sejak kebelakangan ini. Dan saya akan membawa anda dalam perjalanan sedikit pada mengapa saya percaya itu berlaku.

Kami telah melihat perjalanan dalam susunan perkakasan teknologi dalam konteks peralihan mainframe dari imej yang anda lihat pada skrin sekarang. Ini adalah kerangka utama FACOM lama, salah satu kegemaran saya. Kami telah memindahkan diri ke dalam fasa besi yang besar, akhir tahun sembilan puluhan dan ledakan dot-com. Ini adalah Sun Microsystems E10000. Perkara ini adalah monster mutlak pada 96 CPU. Asal-usul 64 tetapi ia boleh ditingkatkan pada 96 CPU. Setiap CPU boleh menjalankan 1, 024 benang. Setiap benang boleh digunakan pada kadar permohonan pada masa yang sama. Ia hanya mengejutkan dan ia sebenarnya menguasai ledakan dot-com. Ini semua unicorns besar seperti yang kita panggil mereka, sekarang kita berjalan, dan bukan hanya perusahaan besar, beberapa laman web besar.

Dan kemudian kita berakhir dengan model PC komoditi biasa ini. Kami hanya mengikat banyak mesin murah bersama-sama dan kami mencipta kumpulan dan kami menghampiri cabaran besi besar dan apa yang menjadi data besar terutama dalam bentuk projek Hadoop yang berpunca daripada enjin carian sumber terbuka, Nutch. Dan kami pada asasnya mencipta rangka utama dan banyak CPU kecil yang terpaku bersama dan dapat bertindak seperti L-jalan dan dalam bentuk menjalankan pekerjaan berasingan atau sebahagian pekerjaan dan mereka sangat berkesan dalam banyak cara. Lebih murah jika anda mula lebih kecil, namun banyak klaster besar ini telah menjadi lebih mahal daripada kerangka utama.

Pandangan saya mengenai perkara-perkara ini adalah bahawa dalam tergesa-gesa dari ledakan dot-com melalui apa yang menjadi Web 2.0 dan kini mengejar unicorns, kita telah lupa bahawa terdapat platform ini masih memaksa banyak sistem kritikal misi terbesar di luar sana. Apabila kita berfikir tentang apa yang berjalan di platform kerangka utama di luar sana. Ia sangat banyak data besar, terutamanya data kerja keras, tetapi pasti data besar. Sistem perusahaan dan kerajaan tradisional seperti pengurusan perbankan dan kekayaan dan insurans khususnya, kita semua menggunakan setiap hari.

Sistem pengurusan tempahan dan penerbangan penerbangan, terutamanya pengurusan penerbangan di mana masa nyata adalah kritikal. Hampir setiap kerajaan negeri dan persekutuan pada masa itu mempunyai kerangka utama dan banyak yang masih ada. Runcit dan perkilangan. Beberapa perisian lama yang baru sahaja dan tidak pernah hilang. Hanya teruskan persekitaran pembuatan kuasa dan tentunya runcit pada skala. Sistem perubatan. Sistem pertahanan, tentunya sistem pertahanan.

Ini beberapa minggu terakhir saya telah membaca banyak artikel mengenai hakikat bahawa beberapa sistem kawalan peluru berpandu semuanya masih berjalan di mainframe lama yang mereka sedang berusaha mencari bahagian-bahagian. Mereka sedang mencari cara untuk menaik taraf ke dalam kerangka utama baru. Pengangkutan dan sistem logistik. Ini mungkin tidak seperti topik seksi tetapi ini adalah topik yang kami berurusan setiap hari di seluruh baris. Dan sesetengah persekitaran telekomunikasi yang sangat besar masih dijalankan di platform kerangka utama.

Apabila anda berfikir tentang jenis data yang ada di dalamnya, mereka semua misi kritikal. Mereka platform dan platform yang sangat penting yang kami ambil setiap hari dan dalam banyak cara menjadikan kehidupan mungkin. Jadi siapa yang masih menggunakan kerangka utama dan siapa semua orang yang memegang platform besar ini dan memegang semua data ini? Baiklah, seperti yang saya katakan di sini, saya percaya ia mudah ditipu oleh peralihan media dari besi besar ke rak rak kluster umum atau mesin murah atau mesin x86, memikirkan bahawa kerangka utama itu mati dan pergi. Tetapi data mengatakan kerangka utama tidak pernah hilang dan sebenarnya ia berada di sini untuk kekal.

Penyelidikan yang saya sediakan di sini dalam beberapa minggu terakhir telah menunjukkan bahawa 70 peratus daripada perusahaan, terutamanya syarikat besar, data masih sebenarnya berada di kerangka utama beberapa bentuk. Tujuh puluh satu peratus daripada Fortune 500s masih menjalankan sistem perniagaan teras di mainframe di suatu tempat. Malah, di Australia, kami mempunyai beberapa organisasi yang mempunyai pusat data di tengah-tengah sebuah bandar. Ia adalah komputer bawah tanah sebenar dengan berkesan, dan bilangan mainframe hanya berjalan di sana, berdetik dan gembira melakukan tugas mereka. Dan sangat sedikit orang yang mengetahui bahawa berjalan di jalan-jalan, tepat di bawah kaki mereka di satu bahagian tertentu di bandar terdapat pusat data yang besar ini dipenuhi dengan kerangka utama. Sembilan puluh dua daripada 100 bank di seluruh dunia, 100 bank teratas yang, masih menjalankan sistem perbankan di mainframe. Dua puluh tiga daripada 25 rantai runcit terulung di seluruh dunia menggunakan kerangka utama untuk terus menjalankan sistem pengurusan runcit mereka di platform EIP dan BI.

Menariknya, 10 daripada 10 syarikat insurans teratas masih menjalankan platform mereka di kerangka utama, dan mereka sebenarnya menggunakan perkhidmatan awan mereka di kerangka utama. Jika anda menggunakan antara muka web atau aplikasi mudah alih di mana terdapat middleware antara muka, itu sebenarnya bercakap dengan sesuatu yang benar-benar berat dan besar di hujung belakang.

Saya mendapati lebih 225 agensi kerajaan negeri dan tempatan di seluruh dunia yang menjalankan platform kerangka utama masih. Saya pasti ada banyak sebab untuk itu. Mungkin mereka tidak mempunyai belanjawan untuk mempertimbangkan besi baru tetapi itulah jejak besar persekitaran yang sangat besar yang berjalan di kerangka utama dengan beberapa data yang sangat kritikal. Dan seperti yang saya sebutkan tadi, kebanyakan negara masih menjalankan sistem pertahanan utama mereka di kerangka utama. Saya pasti dalam banyak cara mereka cuba untuk pergi ke sana tetapi di sana anda pergi.

Pada tahun 2015 IDC menjalankan tinjauan dan 350 daripada CIO yang dikaji melaporkan mereka masih dimiliki dan diuruskan besi besar dalam bentuk mainframe. Dan ia menyedarkan saya bahawa ia mungkin lebih daripada jumlah kluster Hadoop berskala besar yang sedang berjalan di seluruh dunia dalam pengeluaran - statistik kecil yang menarik di sana. Saya akan meneruskan dan mengesahkannya, tetapi ia adalah jumlah yang besar. Tiga ratus lima puluh CIO melaporkan bahawa mereka mempunyai satu atau lebih kerangka utama yang masih dalam pengeluaran.

Tahun lepas, 2015, IBM memberi kita Z13 perkasa, lelaran ke- 13 platform kerangka utama mereka. Media menjadi liar mengenai perkara ini kerana mereka kagum bahawa IBM masih membuat mainframe. Apabila mereka mengangkat hud dan melihat apa yang berada di bawah perkara itu, mereka menyedari bahawa ia sebenarnya setanding dengan hampir semua platform moden yang kami teruja dalam bentuk data besar, Hadoop dan pasti kumpulan. Perkara ini berlari Spark dan sekarang Hadoop secara asli. Anda boleh menjalankan beribu-ribu mesin Linux di atasnya dan ia kelihatan dan dirasakan seperti mana-mana kumpulan lain. Ia adalah mesin yang sangat mengagumkan.

Beberapa organisasi mengambil perkara-perkara ini dan sebenarnya saya melakukan beberapa data tentang berapa banyak mesin-mesin ini mengambil. Sekarang saya mempunyai pandangan bahawa terminal teks 3270 telah digantikan oleh pelayar web dan aplikasi mudah alih untuk beberapa waktu dan terdapat banyak data yang menyokongnya. Saya fikir sekarang kita sedang memasuki satu era di mana kita sedar bahawa kerangka utama ini tidak akan hilang dan ada banyak data yang ada pada mereka. Dan apa yang kita lakukan sekarang adalah dengan menambah apa yang saya sebut alat analitik off-the-shelf. Ini bukan aplikasi yang dibina khas. Ini adalah perkara-perkara yang lebih baik sekali. Ini adalah perkara yang anda boleh secara harfiah hanya membeli dalam kotak yang dibungkus dan pasang ke kerangka utama anda dan lakukan beberapa analitik.

Seperti yang saya katakan sebelum ini, kerangka utama telah wujud selama lebih dari 60 tahun, sebenarnya. Apabila kita berfikir tentang berapa lama itu, itu lebih panjang daripada kerjaya profesional IT yang paling banyak hidup. Dan sebenarnya mungkin sebahagian daripada kehidupan mereka, walaupun. Pada tahun 2002 IBM menjual 2, 300 kerangka utama. Pada 2013 yang meningkat kepada 2, 700 kerangka utama. Itulah 2, 700 jualan mainframe dalam satu tahun pada tahun 2013. Saya tidak dapat mendapatkan data yang tepat pada tahun 2015 tetapi saya membayangkan ia semakin dekat dengan 3, 000 unit yang dijual setahun pada tahun 2015, 2013. Dan saya berharap dapat mengesahkannya.

Dengan melepaskan Z13, lelaran ke- 13 dari platform mainframe, yang saya kira kosnya kira-kira 1.2 atau 1.3 bilion dolar untuk membangunkan dari awal, IBM itu, di sini adalah mesin yang kelihatan dan dirasakan sama seperti mana-mana kelompok lain yang kita ada hari ini, dan secara asli menjalankan Hadoop dan Spark. Dan pastinya dihubungkan dengan dari analisis lain dan alat data besar atau selalu disambungkan ke salah satu kluster Hadoop yang ada atau baru. Saya mempunyai pandangan ini yang termasuk platform mainframe dalam strategi data besar anda adalah suatu keharusan. Sudah tentu, jika anda mempunyai satu, anda mempunyai banyak data dan anda ingin mengetahui cara untuk mendapatkannya di sana. Dan mereka ditinggalkan untuk mengumpul habuk dalam banyak cara, secara mental dan emosi sejauh dunia perniagaan pergi, tetapi mereka berada di sini untuk tinggal.

Kesambungan dan antara muka untuk semua alat analitik anda ke data utama yang menjadi tuan rumah harus menjadi bahagian utama perusahaan anda dan terutamanya rancangan data besar kerajaan. Dan kini perisian kini memerhatikan mereka, melihat wajah mereka dengan baik dan menyedari apa yang ada dalam perkara ini dan menghubungkan minda yang mula mendapat sedikit wawasan dan sedikit rasa untuk apa yang sebenarnya di bawah tudung. Dan dengan itu saya akan menyerahkan kepada rakan sekerja saya, Dr Robin Bloor dan dia akan menambah perjalanan kecil itu. Robin, ambilnya.

Robin Bloor: Baiklah, terima kasih. Okay, kerana Dez telah menyanyikan lagu dari kerangka utama, saya akan pergi ke apa yang saya fikir sedang berlaku dari segi dunia kerangka utama lama dan dunia Hadoop baru. Saya rasa soalan besar di sini ialah, bagaimana anda menguruskan semua data itu? Bukan pendapat saya bahawa kerangka utama sedang dicabar sehubungan dengan keupayaan datanya yang besar - keupayaan data yang besar adalah sangat, seperti yang ditunjukkan Dez, ia sangat berupaya. Sebenarnya, anda boleh meletakkan kelompok Hadoop di atasnya. Di mana ia dicabar adalah dari segi ekosistemnya dan saya akan agak rumit mengenainya.

Berikut adalah beberapa kedudukan kerangka utama. Ia mempunyai kos kemasukan yang tinggi dan apa yang sebenarnya berlaku pada masa lalu, sejak pertengahan tahun '90 ketika popularitas mainframe mulai mencelup, ia cenderung telah kehilangan akhir yang rendah, orang-orang yang telah membeli kerangka utama murah dan ia Tentu sekali ekonomi bagi mereka. Tetapi yang lebih tinggi sebenarnya dalam jarak pertengahan dan jarak jauh dari kerangka utama ia masih sebenarnya, dan sebenarnya sebenarnya, pengkomputeran yang sangat murah.

Iaitu, ia harus dikatakan, diselamatkan oleh Linux kerana Linux dilaksanakan pada kerangka utama yang memungkinkannya untuk menjalankan semua aplikasi Linux. Banyak aplikasi Linux yang pergi ke sana sebelum data besar bahkan satu perkataan, atau dua kata yang saya rasa. Ia sebenarnya platform yang sangat baik untuk awan peribadi. Oleh itu, ia boleh mengambil bahagian dalam penyebaran awan hibrid. Salah satu masalah ialah kemahiran mainframe adalah kekurangan bekalan. Kemahiran mainframe yang ada sebenarnya adalah penuaan dalam erti kata bahawa orang meninggalkan industri untuk persaraan tahun demi tahun dan mereka hanya digantikan dari segi bilangan orang. Jadi itulah masalah. Tetapi masih pengkomputeran murah.

Kawasan di mana ia telah dicabar tentu saja adalah perkara Hadoop keseluruhan ini. Itulah gambar Doug Cutting dengan gajah Hadoop asal. Ekosistem Hadoop adalah - dan ia akan kekal - ekosistem data utama yang dominan. Ia menawarkan skala yang lebih baik daripada kerangka utama yang sebenarnya boleh dicapai dan kosnya lebih rendah sebagai kedai data dengan cara yang jauh. Ekosistem Hadoop sedang berkembang. Cara terbaik untuk berfikir tentang ini adalah sekali platform perkakasan tertentu dan persekitaran operasi dengannya menjadi dominan, maka ekosistem itu hanya hidup. Dan itu berlaku dengan kerangka utama IBM. Nah, kemudian terjadi dengan VAX Digital, terjadi dengan pelayan Sun, terjadi dengan Windows, terjadi dengan Linux.

Dan apa yang berlaku ialah Hadoop, yang saya fikirkan, atau suka berfikir, sebagai sejenis persekitaran yang diedarkan untuk data, ekosistem berkembang pada kadar yang luar biasa. Maksud saya jika anda hanya menyebutkan pelbagai sumbangan yang mengagumkan yang merupakan sumber terbuka, Spark, Flink, Kafka, Presto, dan kemudian anda menambah ke dalam beberapa pangkalan data, keupayaan NoSQL dan SQL yang kini duduk di Hadoop. Hadoop adalah ekosistem yang paling aktif yang sebenarnya ada di sana, pasti dalam pengkomputeran korporat. Tetapi jika anda mahu memperlakukannya sebagai pangkalan data, ia hanya tidak membezakan apa-apa pada masa ini kepada apa yang saya cenderung memikirkan sebagai pangkalan data sebenar, terutama dalam ruang gudang data. Dan ini menjelaskan sejauh mana kejayaan beberapa pangkalan data NoSQL yang tidak berjalan di Hadoop seperti CouchDB dan sebagainya.

Sebagai tasik data ia mempunyai ekosistem jauh lebih kaya daripada mana-mana platform lain dan ia tidak akan berpindah dari itu. Ekosistemnya bukan sekadar ekosistem sumber terbuka. Kini terdapat sejumlah ahli perisian yang dramatik yang mempunyai produk yang pada dasarnya dibina untuk Hadoop atau telah diimport ke Hadoop. Dan mereka baru sahaja membuat ekosistem bahawa tidak ada yang dapat bersaing dengannya dari segi luasnya. Dan ini bermakna ia menjadi platform untuk inovasi data yang besar. Tetapi pada pandangan saya, ia masih belum matang dan kita boleh mengadakan perbincangan panjang tentang apa yang tidak dan tidak, katakan, beroperasi secara matang dengan Hadoop tetapi saya fikir kebanyakan orang yang melihat kawasan tertentu sedar bahawa Hadoop adalah dekad di belakang kerangka utama dari segi keupayaan operasi.

Tasik data yang berkembang. Tasik data adalah platform oleh definisi apa-apa dan jika anda fikir ada lapisan data dalam pengkomputeran korporat sekarang sangat mudah untuk memikirkannya dari segi pangkalan data tetap ditambah tasik data yang membentuk lapisan data. Aplikasi tasik data banyak dan pelbagai. Saya telah mendapat gambarajah di sini yang hanya melalui pelbagai data yang membantah yang perlu dilakukan jika anda menggunakan Hadoop sebagai kawasan pementasan atau Hadoop dan Spark sebagai kawasan pementasan. Dan anda mempunyai semua perkara - keturunan data, pembersihan data, pengurusan metadata, penemuan metadata - ia boleh digunakan untuk ETL sendiri tetapi sering memerlukan ETL untuk membawa data dalam. Pengurusan data induk, definisi perniagaan data, pengurusan perkhidmatan apa yang berlaku dalam Hadoop, pengurusan data kitaran hayat, dan ETL daripada Hadoop, dan juga anda mempunyai aplikasi analisis langsung yang boleh anda jalankan di Hadoop.

Dan itulah sebabnya ia menjadi sangat kuat dan di mana ia telah dilaksanakan dan dilaksanakan dengan jayanya, biasanya ia mempunyai sekurang-kurangnya kumpulan jenis aplikasi yang berjalan di atasnya. Dan sebahagian besar aplikasi itu, terutamanya yang saya telah diberi taklimat, mereka tidak boleh didapati di kerangka utama sekarang. Tetapi anda boleh mengendalikannya di kerangka utama, pada kelompok Hadoop yang sedang berjalan dalam partition kerangka utama.

Tasik data menjadi, pada pendapat saya, kawasan pementasan semulajadi untuk analisis pangkalan data pantas dan untuk BI. Ia menjadi tempat yang anda ambil dalam data, sama ada data korporat atau data luaran, huru-hara sehingga ia, katakan, cukup bersih untuk digunakan dan berstruktur dengan baik untuk digunakan dan kemudian anda lulus. Dan semua ini masih di peringkat awal.

Idea ini, pada pandangan saya, kerangka utama / Hadoop wujud bersama, perkara pertama adalah bahawa syarikat besar tidak mungkin meninggalkan kerangka utama. Malah, tanda-tanda yang saya lihat baru-baru ini membayangkan bahawa terdapat peningkatan pelaburan dalam kerangka utama. Tetapi mereka tidak akan mengabaikan ekosistem Hadoop sama ada. Saya melihat angka 60 peratus syarikat besar menggunakan Hadoop walaupun kebanyakan mereka sebenarnya hanya prototaip dan bereksperimen.

The conundrum kemudiannya ialah, "Bagaimana anda membuat dua perkara ini wujud bersama?" Kerana mereka perlu berkongsi data. Data yang dibawa ke dalam tasik data mereka perlu dipindahkan ke kerangka utama. Data yang terdapat di kerangka utama mungkin perlu pergi ke tasik data atau melalui tasik data untuk disambungkan ke data lain. Dan itu akan berlaku. Dan itu bermakna ia memerlukan pemindahan data / kemampuan ETL yang cepat. Tidak mungkin beban kerja akan dikongsi secara dinamik dalam, katakanlah, persekitaran utama kerangka atau sesuatu dalam persekitaran Hadoop. Ia akan menjadi data yang dikongsi. Dan sebahagian besar data tidak dapat dielakkan akan tinggal di Hadoop semata-mata kerana ia adalah platform paling rendah untuknya. Dan pemprosesan analisis akhir-ke-akhir mungkin akan tinggal di sana juga.

Ringkasnya, akhirnya kita perlu berfikir dari segi lapisan data korporat, yang bagi kebanyakan syarikat akan memasukkan kerangka utama. Dan lapisan data itu perlu diuruskan secara proaktif. Jika tidak, kedua-dua mereka tidak akan hidup bersama. Saya boleh lulus bola kembali kepada anda Eric.

Eric Kavanagh: Sekali lagi, Tendü Saya baru saja menjadikan anda penyampai, jadi ambilnya.

Tendü Yogurtçu: Terima kasih, Eric. Terima kasih kerana mempunyai saya. Hai semua. Saya akan membicarakan pengalaman Syncsort dengan pelanggan berhubung dengan bagaimana kita melihat data sebagai aset dalam organisasi yang disamakan dari kerangka utama kepada data besar pada platform analitik. Dan saya harap kami juga akan mempunyai masa di akhir sesi untuk mempunyai soalan daripada penonton kerana itu benar-benar bahagian paling berharga daripada webcast ini.

Hanya untuk orang yang tidak tahu apa yang Syncsort lakukan, Syncsort adalah syarikat perisian. Kami telah berusia lebih dari 40 tahun. Bermula di bahagian utama kerangka utama dan produk kami dari kerangka utama ke Unix ke platform data besar, termasuk Hadoop, Spark, Splunk, baik di premis dan di awan. Tumpuan kami sentiasa ada pada produk data, pemprosesan data dan produk integrasi data.

Strategi kami berkenaan dengan data besar dan Hadoop telah benar-benar menjadi sebahagian daripada ekosistem dari hari ke hari. Sebagai pemilik vendor yang telah benar-benar memberi tumpuan kepada pemprosesan data dengan enjin yang sangat ringan, kami berpendapat bahawa terdapat peluang besar untuk menyertai Hadoop menjadi platform pemprosesan data dan menjadi sebahagian daripada senibina gudang data generasi berikutnya untuk organisasi. Kami telah menjadi penyumbang kepada projek sumber terbuka Apache sejak tahun 2011, bermula dengan MapReduce. Telah berada di sepuluh teratas untuk Hadoop Versi 2, dan menyertai sebenarnya dalam beberapa projek juga termasuk pakej Spark, beberapa penyambung kami diterbitkan dalam pakej Spark.

Kami memanfaatkan enjin pemprosesan data yang sangat ringan kami yang benar-benar berasaskan fail metadata, dan terletak sangat baik dengan sistem fail yang diedarkan seperti Sistem Fail Hadoop yang Diagihkan. Dan kami memanfaatkan warisan kami di kerangka utama, kepakaran kami dengan algoritma apabila kami mengeluarkan produk data kami yang besar. Dan kami sangat erat dengan vendor utama, pemain utama di sini termasuk Hortonworks, Cloudera, MapR, Splunk. Hortonworks baru-baru ini mengumumkan bahawa mereka akan menjual semula produk kami untuk ETL onboarding dengan Hadoop. Dengan Dell dan Cloudera kami mempunyai perkongsian yang sangat rapat yang juga menjual produk ETL kami sebagai sebahagian daripada perkakas data besar mereka. Dan dengan Splunk sebenarnya, kami menerbitkan telemetri utama dan data keselamatan di papan pemuka Splunk. Kami mempunyai perkongsian rapat.

Apa yang ada dalam minda setiap eksekutif peringkat C? Ini benar-benar, "Bagaimana saya memanfaatkan aset data saya?" Semua orang bercakap mengenai data besar. Semua orang bercakap mengenai Hadoop, Spark, platform komputer yang seterusnya yang boleh membantu saya membuat ketangkasan perniagaan dan membuka aplikasi transformatif baru. Peluang masuk baru ke pasaran. Setiap eksekutif tunggal berfikir, "Apakah strategi data saya, apakah inisiatif data saya, dan bagaimana saya memastikan bahawa saya tidak tinggal di belakang persaingan saya, dan saya masih dalam pasaran ini dalam tiga tahun akan datang?" lihat ini kerana kami bercakap dengan pelanggan kami, seperti yang kita bercakap dengan asas pelanggan global kami, yang agak besar, seperti yang anda boleh bayangkan, kerana kami telah berada di sekelilingnya.

Seperti yang kita bercakap dengan semua organisasi ini, kita juga melihat ini dalam timbunan teknologi dalam gangguan yang berlaku dengan Hadoop. Ini benar-benar untuk memenuhi permintaan ini mengenai data sebagai aset. Memanfaatkan semua aset data organisasi yang ada. Dan kami telah melihat senibina gudang data perusahaan berkembang sedemikian rupa sehingga Hadoop kini merupakan pusat baru seni bina data moden. Dan kebanyakan pelanggan kami, sama ada perkhidmatan kewangan, sama ada insurans itu, telekomunikasi runcit, inisiatif biasanya sama ada kami mendapati bahawa Hadoop sebagai perkhidmatan atau data sebagai perkhidmatan. Kerana semua orang cuba membuat aset data yang tersedia untuk sama ada pelanggan luar mereka atau klien dalaman. Dan dalam beberapa organisasi yang kita lihat inisiatif seperti hampir pasaran data untuk pelanggan mereka.

Dan salah satu langkah pertama yang dapat dicapai adalah mewujudkan hub data perusahaan. Kadang-kadang orang akan menyebutnya sebagai tasik data. Mewujudkan hab data perusahaan ini sememangnya tidak mudah kerana ia benar-benar memerlukan akses dan mengumpul hampir apa-apa data dalam perusahaan. Dan data itu kini dari semua sumber baru seperti sensor mudah alih serta pangkalan data warisan dan ia dalam mod batch dan dalam mod streaming. Integrasi data sentiasa menjadi cabaran, bagaimanapun, dengan jumlah dan pelbagai sumber data dan gaya penghantaran yang berbeza, sama ada batch atau streaming masa sebenar, ia lebih mencabar sekarang berbanding lima tahun yang lalu, sepuluh tahun yang lalu. Kami kadang-kadang merujuknya sebagai, "Ia bukan lagi ETL bapa anda."

Jadi kita bercakap tentang aset data yang berbeza. Oleh kerana perusahaan cuba memahami data baru, data yang mereka kumpulkan dari peranti mudah alih, sama ada sensor dalam pengilang kereta atau data pengguna untuk syarikat permainan mudah alih, mereka sering perlu merujuk aset data paling kritikal dalam contohnya, maklumat pelanggan, misalnya. Aset data paling kritikal ini sering hidup di kerangka utama. Menyelaraskan data kerangka utama dengan sumber-sumber baru muncul ini, yang dikumpulkan di awan, yang dikumpul melalui mudah alih, yang dikumpulkan di garisan pembuatan sebuah syarikat kereta Jepun, atau internet perkara-perkara aplikasi, perlu memahami data baru ini dengan merujuk set data warisan mereka. Dan set data warisan itu sering di kerangka utama.

Dan jika syarikat-syarikat ini tidak dapat melakukannya, tidak dapat memanfaatkan data mainframe maka ada peluang yang tidak dijawab. Kemudian data sebagai perkhidmatan, atau memanfaatkan semua data perusahaan tidak benar-benar memanfaatkan aset yang paling kritikal dalam organisasi. Terdapat juga bahagian telemetri dan data keselamatan kerana hampir semua data urus niaga hidup di kerangka utama.

Bayangkan anda akan pergi ke ATM, saya fikir salah seorang peserta menghantar mesej kepada peserta di sini untuk melindungi sistem perbankan, apabila anda meleretkan kad anda bahawa data transaksi hampir di seluruh dunia pada kerangka utama. Dan mengamankan dan mengumpul data keselamatan dan data telemetri dari kerangka utama dan menjadikannya tersedia melalui salah satu papan pemuka Splunk atau yang lain, Spark, SQL, menjadi lebih kritis sekarang berbanding sebelumnya, kerana jumlah data dan pelbagai data.

Set kemahiran adalah salah satu cabaran terbesar. Kerana di satu pihak anda mempunyai tumpukan data besar yang berubah-ubah, anda tidak tahu projek mana yang akan bertahan, projek mana yang tidak akan bertahan, sekiranya saya mengupah pemaju Hive atau Pig? Sekiranya saya melabur di MapReduce atau Spark? Atau perkara seterusnya, Flink, seseorang berkata. Perlukah saya melabur di salah satu platform komputer ini? Di satu pihak, dengan mengekalkan ekosistem yang pesat berubah adalah satu cabaran, dan sebaliknya anda mempunyai sumber data warisan ini. Set kemahiran baru tidak betul-betul sepadan dan anda mungkin menghadapi masalah kerana sumber tersebut sebenarnya akan bersara. Terdapat jurang yang besar dari segi kemahiran orang-orang yang memahami susunan data warisan dan siapa yang memahami stack teknologi yang muncul.

Cabaran kedua ialah tadbir. Apabila anda benar-benar mengakses semua data perusahaan di seluruh platform, kami mempunyai pelanggan yang menimbulkan kebimbangan bahawa, "Saya tidak mahu data saya didapatkan. Saya tidak mahu data saya disalin di beberapa tempat kerana saya ingin mengelakkan banyak salinan sebanyak mungkin. Saya ingin mempunyai akses hujung ke hujung tanpa mendarat di tengah-tengah. "Mengatur data ini menjadi satu cabaran. Dan sekeping yang lain adalah jika anda mengakses data yang sekatan, jika anda mengumpul kebanyakan data anda di awan dan mengakses dan merujuk data warisan, jalur lebar rangkaian menjadi isu, platform kelompok. Terdapat banyak cabaran dari segi inisiatif data besar ini dan platform analitis maju dan memanfaatkan semua data perusahaan.

Apa yang ditawarkan Syncsort, kami dirujuk sebagai "hanya yang terbaik" bukan kerana kami hanya yang terbaik tetapi pelanggan kami benar-benar merujuk kepada kami sebagai yang terbaik untuk mengakses dan mengintegrasikan data kerangka utama. Kami menyokong semua format data dari kerangka utama dan menjadikannya tersedia untuk analisis data besar. Sama ada itu di Hadoop atau Spark atau platform komputer seterusnya. Kerana produk kami benar-benar melindungi kompleksiti platform komputer. Anda, sebagai pemaju, yang berpotensi membangunkan komputer riba, memberi tumpuan kepada saluran data dan apakah persediaan data, langkah-langkah untuk membuat data ini dibuat untuk analisis, fasa seterusnya, dan mengambil aplikasi yang sama di MapReduce atau mengambilnya aplikasi yang sama di dalam Spark.

Kami membantu para pelanggan melakukan ini apabila YARN menjadi tersedia dan mereka terpaksa memindahkan aplikasi mereka dari MapReduce versi 1 ke YARN. Kami membantu mereka melakukan perkara yang sama dengan Apache Spark. Produk kami, pelepasan baru 9 berjalan dengan Spark dan juga kapal dengan pengoptimuman dinamik yang akan melindungi aplikasi ini untuk rangka komputer masa depan.

Oleh itu, kami telah mengakses data kerangka utama, sama ada fail VSAM, sama ada DB2, atau sama ada data telemetri, seperti rekod SMF atau Log4j atau syslog, yang perlu digambarkan melalui papan pemuka Splunk. Dan semasa melakukan itu, kerana organisasi dapat memanfaatkan jurutera data mereka atau set kemahiran ETL, masa pembangunan dikurangkan dengan ketara. Malah dengan Dell dan Cloudera, terdapat penanda aras bebas yang ditaja, dan penanda aras itu memberi tumpuan kepada masa pembangunan yang diperlukan jika anda melakukan pengekodan tangan atau menggunakan alat lain seperti Syncsort, dan ia adalah kira-kira 60, 70 peratus pengurangan dalam masa pembangunan . Merapatkan kemahiran menetapkan jurang di seluruh kumpulan, merentasi hos fail data tersebut, dan juga fail data yang menjadi tuan rumah dari segi orang.

Biasanya pasukan data besar, atau pasukan ingest data, atau pasukan yang ditugaskan untuk membangunkan data ini sebagai seni bina perkhidmatan, tidak semestinya bercakap dengan pasukan mainframe. Mereka mahu meminimumkan interaksi itu hampir di kebanyakan organisasi. Dengan menutup jurang itu, kami telah maju. Dan bahagian yang paling penting benar-benar mengamankan keseluruhan proses. Kerana dalam perusahaan apabila anda berhadapan dengan data sensitif seperti ini ada banyak keperluan.

Dalam industri yang sangat terkawal seperti insurans dan perbankan, pelanggan kami bertanya, "Anda menawarkan akses data utama ini dan itu hebat. Bolehkah anda juga menawarkan saya membuat format rekod EBCDIC yang dikodkan dalam format asal supaya saya dapat memenuhi keperluan audit saya? "Oleh itu, kami membuat Hadoop dan Apache Spark memahami data kerangka utama. Anda boleh menyimpan data dalam format rekod asalnya, melakukan pemprosesan dan peringkat platform komputer pengedar dan jika anda perlu meletakkannya kembali anda dapat menunjukkan rekod tidak berubah dan format rekod tidak berubah, anda boleh mematuhi keperluan pengawalseliaan .

Dan sebahagian besar organisasi, kerana mereka membuat hab data atau tasik data, mereka juga cuba melakukan ini dengan satu klik untuk dapat memetakan metadata dari beratus-ratus skema dalam pangkalan data Oracle untuk jadual Hive atau fail ORC atau Parket menjadi perlu. Kami menghantar alat dan kami menyediakan alat untuk membuat ini akses data satu langkah, pekerjaan penjanaan auto atau pergerakan data, dan pekerjaan yang menghasilkan auto untuk membuat pemetaan data.

Kami bercakap mengenai bahagian sambungan, pematuhan, tadbir urus dan pemprosesan data. Dan produk kami tersedia di premis dan di awan, yang menjadikannya sangat mudah kerana syarikat tidak perlu memikirkan apa yang akan terjadi pada tahun depan atau dua jika saya memutuskan untuk pergi sepenuhnya dalam awan awam berbanding hibrid persekitaran, kerana beberapa kluster mungkin berjalan di premis atau di awan. Dan produk kami boleh didapati di Amazon Marketplace, di EC2, MapReduce Elastik dan juga ke bekas Docker.

Hanya untuk membungkus, jadi kami mempunyai cukup masa untuk Q & A, ia benar-benar tentang mengakses, mengintegrasikan dan mematuhi tadbir urus data, namun membuat semua ini lebih mudah. Dan sambil menjadikan ini lebih mudah, "reka bentuk sekali dan digunakan di mana-mana" dalam erti kata yang benar kerana sumbangan sumber terbuka kami produk kami berjalan secara asli dalam aliran data Hadoop dan secara asli dengan Spark, menebus organisasi dari ekosistem yang pesat berubah. Dan menyediakan saluran data tunggal, antara muka tunggal, untuk batch dan streaming.

Dan ini juga membantu organisasi kadang-kadang menilai kerangka kerja ini, kerana anda mungkin ingin membuat aplikasi dan hanya berjalan di MapReduce versus Spark dan lihat sendiri, ya, Spark mempunyai janji ini dan menyediakan semua pendahuluan pada algoritma iteratif berfungsi untuk pembelajaran mesin terbaik dan aplikasi analisis ramalan bekerja dengan Spark, bolehkah saya juga mempunyai aliran kerja dan beban kerja batch yang dilakukan pada rangka kerja komputer ini? Anda boleh menguji platform komputer yang berbeza menggunakan produk kami. Dan pengoptimuman dinamik sama ada anda menjalankan pelayan yang berdiri sendiri, pada komputer riba anda, di Google Cloud berbanding Apache Spark, benar-benar merupakan nilai nilai yang besar untuk pelanggan kami. Dan ia benar-benar didorong oleh cabaran yang mereka ada.

Saya hanya akan menutup satu kajian kes. Ini adalah Syarikat Insurans Hayat Penjaga. Dan inisiatif Guardian benar-benar memusatkan aset data mereka dan menjadikannya tersedia untuk pelanggan mereka, mengurangkan masa penyediaan data dan mereka mengatakan bahawa semua orang bercakap tentang penyediaan data mengambil 80 peratus daripada keseluruhan talian paip pemprosesan data dan mereka berkata ia sebenarnya mengambil 75 hingga 80 peratus untuk mereka dan mereka mahu mengurangkan penyediaan data, masa transformasi, masa ke pasaran untuk projek analisis. Buat ketangkasan ketika mereka menambah sumber data baru. Dan menjadikan akses data terpusat ini tersedia untuk semua pelanggan mereka.

Penyelesaiannya, termasuk produk Syncsort, kini mereka mempunyai pasaran data Amazon Marketplace yang kelihatan seperti tasik data, yang pada dasarnya adalah Hadoop, dan pangkalan data NoSQL. Dan mereka menggunakan produk kami untuk membawa semua aset data ke dalam tasik data, termasuk DB2 pada kerangka utama, termasuk fail VSAM di kerangka utama, dan sumber data warisan pangkalan data serta sumber data baru. Dan akibatnya mereka telah memusatkan aset data yang dapat digunakan semula yang boleh dicari, diakses dan tersedia kepada pelanggan mereka. Dan mereka benar-benar dapat menambah sumber data baru dan memberi perkhidmatan kepada pelanggan mereka lebih pantas dan lebih cekap daripada sebelumnya. Dan inisiatif analitik bahkan lebih maju pada sisi ramalan juga. Jadi saya akan berhenti seketika dan saya berharap ini berguna dan jika anda mempunyai sebarang soalan untuk saya mengenai mana-mana topik berkaitan sila, anda dialu-alukan.

Eric Kavanagh: Pasti, dan Tendü, saya akan membuang satu dalam. Saya mendapat komen daripada ahli penonton yang hanya berkata, "Saya suka reka bentuk ini sekali, letakkan di mana sahaja." "Bolehkah anda menggali bagaimana itu benar? Maksud saya, apa yang telah anda lakukan untuk membolehkan ketangkasan semacam itu dan apakah ada cukai? Seperti ketika kita bercakap tentang perwujudan maya, contohnya, selalu ada sedikit pajak atas prestasi. Sesetengah orang mengatakan dua peratus, lima peratus 10 peratus. Apa yang telah anda lakukan untuk membolehkan reka bentuk sekali, menggunakan mana-mana - bagaimana anda melakukannya dan apakah ada cukai yang berkaitan dengannya dari segi prestasi?

Tendü Yogurtçu: Ya, terima kasih. Tidak, kerana tidak seperti beberapa vendor lain, kami tidak benar-benar menjana Hive atau Babi atau beberapa kod lain yang bukan berasal dari enjin kami. Di sinilah sumbangan sumber terbuka kami memainkan peranan yang besar, kerana kami telah bekerjasama dengan vendor Hadoop, Cloudera, Hortonworks dan MapR sangat rapat dan disebabkan sumbangan sumber terbuka kami, enjin kami sebenarnya berjalan secara asli sebagai sebahagian daripada aliran, sebagai sebahagian daripada aliran Hadoop, sebagai sebahagian daripada Spark.

Apa yang diterjemahkan juga, kami mempunyai pengoptimuman dinamik ini. Ini adalah sesuatu yang datang kerana pelanggan kami dicabar dengan kerangka komputer. Ketika mereka sedang dalam proses pengeluaran dengan beberapa aplikasi, mereka kembali, mereka berkata, "Saya hanya menstabilkan cluster Hadoop saya, menstabilkan pada MapReduce YARN Versi 2, MapReduce Versi 2, dan orang sedang bercakap bahawa MapReduce sudah mati, Spark adalah perkara seterusnya, dan sesetengah orang berkata Flink akan menjadi perkara seterusnya, bagaimana saya akan menghadapi ini? "

Dan cabaran-cabaran itu benar-benar menjadi begitu jelas bagi kami, kami melabur dalam mengoptimumkan dinamik ini yang kami maksudkan sebagai pelaksanaan pintar. Pada waktu larian, apabila kerja, apabila saluran data ini diserahkan, berdasarkan kluster, sama ada Spark, sama ada MapReduce atau pelayan yang berdiri sendiri Linux, kami memutuskan bagaimana untuk menjalankan tugas ini, secara asli dalam enjin kami, sebagai sebahagian daripada itu Aliran data Hadoop atau Spark. Tidak ada overhed kerana segala-galanya dilakukan melalui pengoptimuman dinamik yang kami miliki dan segala-galanya juga dilakukan kerana enjin kami begitu terintegrasi kerana sumbangan sumber terbuka kami. Adakah itu menjawab soalan anda?

Eric Kavanagh: Ya, itu bagus. Dan saya mahu membuang satu lagi soalan di sana, dan kemudian Dez, mungkin kita akan menarik awak dan Robin juga. Saya hanya mendapat komen lucu dari salah seorang peserta kami. Saya akan membacanya kerana ia sangat baik. Dia menulis, "Nampaknya dalam sejarah perkara-perkara HOT" - mendapatkannya? Seperti IoT - "adalah lebih banyak anda cuba 'memudahkan' sesuatu yang benar-benar rumit, lebih kerap daripada tidak mudah kelihatannya melakukan perkara-perkara lebih gantung tali dibekalkan. Fikirkan pertanyaan pangkalan data, letupan, multi-threading, dan lain-lain. "Bolehkah anda memberi komen tentang paradoks ini bahawa dia merujuk? Kesederhanaan berbanding kerumitan, dan pada dasarnya apa yang sebenarnya berlaku di bawah penutupnya?

Tendü Yogurtçu: Pasti. Saya fikir itu titik yang sangat sah. Apabila anda memudahkan perkara dan melakukan pengoptimuman ini, dengan cara di bawah penutup, seseorang perlu mengambil kerumitan apa yang perlu berlaku, bukan? Sekiranya anda sedang melumpuhkan sesuatu atau jika anda memutuskan bagaimana untuk menjalankan tugas tertentu berkenaan dengan kerangka komputer, jelas ada beberapa bahagian pekerjaan yang ditolak sama ada pada akhir pengguna, pengekodan menu, atau pada pengoptimuman enjin. Terdapat sebahagian daripadanya, dengan mempermudah pengalaman pengguna ada manfaat besar dari segi dapat memanfaatkan kemahiran yang ada di perusahaan.

Dan anda boleh mengurangkan kemungkinan paradoks itu, mengurangkan cabaran, "Ya, tetapi saya tidak mempunyai kawalan ke atas semua yang berlaku di bawah penutup, di bawah tudung dalam enjin itu, " dengan mendedahkan perkara kepada pengguna yang lebih maju jika mereka mahu mempunyai kawalan semacam itu. Dengan juga melabur dalam beberapa jenis perkhidmatan. Mampu menawarkan lebih banyak metadata operasi, lebih banyak data operasi, seperti contoh yang diberikan oleh peserta ini, untuk pertanyaan SQL serta dengan enjin berjalan. Saya harap jawapan itu.

Eric Kavanagh: Ya, itu bagus. Dez, ambilnya.

Dez Blanchfield: Saya benar-benar berminat untuk mendapatkan sedikit lebih banyak gambaran tentang jejak anda dalam sumbangan sumber terbuka dan perjalanan yang anda ambil dari pengalaman anda yang tradisional, lama dalam kerangka utama dan dunia proprietari dan kemudian beralih ke menyumbang kepada sumber terbuka dan bagaimana ia berlaku. Dan perkara lain yang saya ingin difahami ialah pandangan yang anda lihat perniagaan itu, bukan hanya jabatan IT, tetapi perniagaan kini mengambil kira hab data atau tasik data seperti yang dikatakan oleh orang sekarang dan sama ada mereka melihat trend ini hanya satu tasik data yang disatukan atau sama ada kita melihat tasik data diedarkan dan orang menggunakan alatan untuk meletakkannya bersama?

Tendü Yogurtçu: Pasti. Untuk yang pertama, itu adalah perjalanan yang sangat menarik, sebagai syarikat perisian pemilik, salah satu yang pertama selepas IBM. Walau bagaimanapun, sekali lagi, semuanya bermula dengan pelanggan penginjil kami yang melihat Hadoop. Kami mempunyai syarikat data seperti ComScore, mereka adalah salah satu yang pertama mengguna pakai Hadoop kerana mereka mengumpul data digital di seluruh dunia dan tidak dapat menyimpan data 90 hari kecuali mereka melabur kotak gudang data bernilai sepuluh juta dolar persekitaran. Mereka mula memandang Hadoop. Dengan itu kami mula juga melihat Hadoop.

Dan apabila kami membuat keputusan dan mengakui bahawa Hadoop benar-benar akan menjadi platform data masa depan, kami juga mendapat pemahaman bahawa kami tidak akan dapat bermain dalam permainan ini, yang berjaya dalam hal ini, kecuali kami adalah sebahagian daripada ekosistem. Dan kami bekerja dengan sangat rapat dengan vendor Hadoop, dengan Cloudera, Hortonworks, MapR, dan lain-lain. Kami mula benar-benar bercakap dengan mereka kerana perkongsian menjadi sangat penting untuk mengesahkan nilai vendor yang boleh membawa dan juga memastikan bahawa kami bersama-sama boleh pergi ke perusahaan dan menawarkan sesuatu yang lebih bermakna. Ia memerlukan banyak bangunan perhubungan kerana kami tidak dikenali dengan projek sumber terbuka Apache, namun kami mendapat sokongan besar dari vendor Hadoop ini, saya mesti katakan.

Kami mula bekerja bersama dan melihat hub, bagaimana kami boleh membawa nilai tanpa perisian pemilik kami di ruang angkasa. Itu penting. Ia bukan hanya meletakkan beberapa API yang boleh dijalankan oleh produk anda, ia boleh mengatakan bahawa saya akan melabur dalam ini kerana saya percaya Hadoop akan menjadi platform masa depan, jadi dengan melabur dalam sumber yang ingin kami buat pasti ia matang dan menjadi perusahaan siap. Sebenarnya, kita boleh mengaktifkan beberapa kes penggunaan yang tidak ada sebelum sumbangan kita. Ini akan memberi manfaat kepada keseluruhan ekosistem dan kita boleh mengembangkan perkongsian itu dengan sangat rapat.

Ia mengambil masa yang agak lama. Kami mula menyumbang pada tahun 2011, dan 2013, 21 Januari - Saya teringat tarikh itu kerana tarikh sumbangan terbesar kami telah dilakukan yang bermaksud bahawa kami kini boleh mendapatkan produk kami secara umum tersedia dari ketika itu - ia mengambil sedikit masa untuk membangunkan hubungan tersebut, tunjukkan nilai, rakan kongsi menjadi rakan rekaan dengan vendor dan dengan komiters dalam komuniti sumber terbuka. Tetapi ia sangat menyeronokkan. Ia sangat bermanfaat sebagai sebuah syarikat bagi kami untuk menjadi sebahagian daripada ekosistem itu dan membangunkan perkongsian yang hebat.

Persoalan kedua tentang tasik data / data, saya fikir apabila kita melihat data ini sebagai pelaksanaan perkhidmatan dalam kebanyakan kes, ya, ia mungkin cluster, fasa tunggal atau berbilang fizikal, tetapi ia lebih konseptual daripada menjadi satu tempat tunggal untuk semua data. Kerana dalam sesetengah organisasi kita melihat penyebaran kluster besar di premis, namun mereka juga mempunyai kelompok, misalnya, dalam awan awam kerana beberapa data yang dikumpulkan dari bahagian dalam talian benar-benar disimpan di awan. Ia dapat mempunyai saluran data tunggal yang sebenarnya boleh memanfaatkan kedua-dua ini, dan menggunakannya sebagai hub data tunggal, tasik data tunggal, menjadi penting. Tidak semestinya hanya tempat fizikal, tetapi mempunyai hab data dan tasik data di seluruh kelompok, seluruh geografi dan mungkin di premis dan awan akan menjadi sangat kritikal, saya fikir. Terutamanya bergerak ke hadapan. Pada tahun ini kami mula melihat lebih banyak lagi penyebaran awan. Ianya hebat. Separuh pertama tahun ini setakat ini kami telah melihat banyak penyebaran awan.

Eric Kavanagh: Okay, sejuk. Dan Robin, adakah anda mempunyai sebarang soalan? Saya tahu kita hanya mempunyai beberapa minit lagi.

Robin Bloor: Baiklah, saya boleh bertanya kepadanya. Perkara pertama yang berlaku kepada saya adalah bahawa terdapat banyak kegembiraan tentang Kafka dan saya berminat dengan pendapat anda mengenai Kafka dan bagaimana anda mengintegrasikan dengan cara orang menggunakan Kafka?

Tendü Yogurtçu: Pasti. Ya, Kafka menjadi sangat popular. Di antara pelanggan kami, kami melihat bahawa menjadi jenis lapisan pengangkutan data dan melihat bahawa data adalah bas, cukup banyak. Sebagai contoh, salah satu daripada pelanggan kami sebenarnya menggunakan jenis data yang dipakai ke dalam Kafka ini di antara pelbagai, seperti ribuan pengguna dalam talian dan dapat mengklasifikasikan dan meneruskannya.

Sekali lagi, Kafka adalah bas data kepada pengguna yang berbeza dari data ini. Klasifikasikan beberapa pengguna maju berbanding pengguna yang tidak begitu maju dan melakukan sesuatu yang berbeza ke depan dalam saluran data tersebut. Bagaimana kami mengintegrasikan dengan Kafka pada dasarnya, produk kami DMX-h menjadi pengguna yang boleh dipercayai, pengguna yang sangat cekap dan boleh dipercayai untuk Kafka. Ia boleh membaca data dan ini tidak berbeza daripada membaca data dari mana-mana sumber data lain untuk kami. Kami memberi pengguna keupayaan untuk mengawal tetingkap sama ada dari segi keperluan masa yang mereka ada atau bilangan mesej yang mungkin mereka ambil dari bas Kafka. Dan kemudian kita juga boleh melakukan pengayaan data itu kerana ia akan melalui produk kami dan ditolak kembali ke Kafka. Kami telah menguji ini. Kami menanda arasnya di tapak pelanggan. Juga disahkan oleh Confluent. Kami bekerja rapat dengan orang-orang Confluent dan ia sangat berprestasi dan mudah digunakan. Sekali lagi, terdapat perubahan API tetapi anda tidak perlu bimbang kerana produk itu benar-benar memperlakukannya sebagai hanya sumber data lain, sumber data streaming. Ia cukup seronok untuk bekerja dengan produk kami dan Kafka, sebenarnya.

Robin Bloor: Baiklah saya mempunyai soalan lain yang hanya jenis soalan perniagaan umum tetapi saya telah mengenali Syncsort untuk masa yang lama dan anda sentiasa mempunyai reputasi dan menyampaikan perisian yang luar biasa cepat untuk ETL dan dunia kerangka utama. Adakah kes yang kebanyakan perniagaan anda sedang dipindahkan ke Hadoop? Adakah kes dalam satu cara atau yang lain anda menyebarkan perniagaan anda secara dramatik dari dunia mainframe?

Tendü Yogurtçu: Produk kerangka utama kami masih berjalan 50 peratus dari kerangka utama di seluruh dunia. Oleh itu, kami mempunyai barisan produk kerangka utama yang sangat kuat selain daripada apa yang kami lakukan pada data besar dan akhir Hadoop. Dan kami masih dalam kebanyakan projek pengoptimuman atau pengoptimuman IT kerana ada satu hujung yang anda mahu dapat memanfaatkan data mainframe anda dalam platform Multex data besar dan memanfaatkan semua data perusahaan, namun terdapat juga beban kerja transaksional yang sangat kritikal yang masih terus berjalan di kerangka utama dan kami menawarkan para pelanggan cara-cara untuk benar-benar menjadikan aplikasi-aplikasi itu lebih cekap, berjalan di enjin zIIP supaya mereka tidak menggunakan banyak kitaran pemprosesan dan MIPS, menjadikannya kos efektif.

Kami terus melabur dalam produk mainframe dan sebenarnya bermain di ruang ini di mana orang pergi dari besi besar kerangka utama ke data besar dan merangkumi barisan produk juga merentasi platform tersebut. Oleh itu, kita tidak semestinya mengalihkan keseluruhan perniagaan ke satu sisi, kita terus mempunyai perniagaan yang sangat berjaya di kedua-dua belah pihak. Dan pengambilalihan adalah tumpuan besar bagi kami juga. Oleh kerana pengurusan data dan ruang pemprosesan data untuk platform data besar berkembang, kami juga komited untuk membuat beberapa pengambilalihan percuma.

Robin Bloor: Baiklah, saya tidak boleh bertanya kepada anda apa itu kerana anda tidak dibenarkan memberitahu saya. Saya berminat sama ada anda telah melihat banyak pelaksanaan Hadoop atau Spark sebenarnya pada kerangka utama atau sama ada itu perkara yang sangat jarang berlaku.

Tendü Yogurtçu: Kami tidak melihat apa-apa. Terdapat lebih banyak soalan tentang itu. Saya fikir Hadoop di kerangka utama tidak banyak masuk akal kerana jenis struktur teras. Walau bagaimanapun Spark pada kerangka utama cukup bermakna dan Spark benar-benar sangat baik dengan pembelajaran mesin dan analisis ramalan dan dapat memiliki beberapa aplikasi dengan data kerangka utama sebenarnya, saya fikir, cukup bermakna. Kami tidak pernah melihat sesiapa yang melakukan perkara itu, tetapi sebenarnya ia menggunakan kes yang memandu perkara-perkara ini. Jika kes penggunaan anda sebagai sebuah syarikat lebih membawa data kerangka utama dan mengintegrasikannya dengan seluruh set data dalam platform data besar, itu satu kisah. Ia memerlukan mengakses data kerangka utama dari platform Multex data besar kerana anda tidak mungkin membawa set data anda dari sistem terbuka dan dipanggil kembali ke kerangka utama. Walau bagaimanapun, jika anda mempunyai beberapa data kerangka utama yang anda mahu hanya meneroka dan melakukan sedikit penemuan penerokaan data, gunakan beberapa AI maju dan analisis lanjutan, maka Spark mungkin cara yang baik untuk pergi dan berjalan di kerangka utama seperti itu.

Eric Kavanagh: Dan ini satu lagi pertanyaan dari penonton, sebenarnya dua lagi. Saya akan memberi anda soalan pasukan tag, maka kami akan membungkusnya. Seorang peserta bertanya, "Adakah IBM mengintegrasikan sumbangan sumber terbuka anda pada ekosistem awan awam, dengan kata lain, Bluemix?" Dan para peserta lain membuat titik yang sangat bagus, dengan menyatakan bahawa Syncsort sangat bagus untuk menyimpan zat besi yang besar bagi mereka yang sudah ada, tetapi jika syarikat mengundurkan mainframe baru memihak kepada apa yang dia panggil CE, semuanya awan, ia mungkin akan merosot, tetapi menyatakan bahawa kamu semua sangat baik dalam memindahkan data dengan melewati sistem operasi sehingga satu gigabyte sesaat. Bolehkah anda bercakap tentang kekuatan teras anda, seperti yang disebutkannya, dan sama ada IBM mengintegrasikan barangan anda ke dalam Bluemix?

Tendü Yogurtçu: Dengan IBM, kami sudah menjadi rakan kongsi dengan IBM dan kami mengadakan perbincangan mengenai perkhidmatan cloud data mereka yang menawarkan produk. Sumbangan sumber terbuka kami terbuka kepada semua orang yang ingin memanfaatkannya. Antara kesambungan utama kerangka utama juga terdapat dalam pakej Spark, jadi bukan hanya IBM. Sesiapa sahaja boleh memanfaatkannya. Dalam Bluemix kita belum melakukan apa-apa secara khusus. Dan adakah anda keberatan mengulangi soalan kedua?

Eric Kavanagh: Ya, persoalan kedua adalah tentang fungsi utama teras anda selama ini, yang benar-benar mengendalikan kesesakan ETL dan jelas itulah sesuatu yang anda masih akan lakukan sebagai mainframe, dengan baik, secara teorinya menjauhkan diri, walaupun Dez's titik masih agak goyang dan bergulir di sana. Tetapi attendee hanya menyatakan bahawa Syncsort sangat baik dalam memindahkan data dengan memintas sistem operasi dan sehingga gigabyte sesaat. Bolehkah anda memberi komen?

Tendü Yogurtçu: Ya, kecekapan sumber yang sebenarnya adalah kekuatan dan kebolehan dan prestasi kami menjadi kekuatan kami. Kami tidak menjejaskan, memudahkan banyak makna, kami tidak berkompromi daripada mereka. Ketika orang mula bercakap tentang Hadoop pada tahun 2014, misalnya, banyak organisasi tidak benar-benar melihat prestasi awalnya. Mereka berkata, "Oh, jika sesuatu berlaku saya boleh menambah beberapa nod lain dan saya akan baik-baik saja, persembahan bukanlah keperluan saya."

Walaupun kami bercakap tentang mempunyai prestasi terbaik kerana kami telah menjalankan secara asli, kami bahkan tidak mempunyai beberapa cegukan awal yang Hive mempunyai dengan banyak kerja MapReduce dan overhed dengan memulakannya. Orang-orang memberitahu kami, "Oh, itu bukan kebimbangan saya, jangan risau pada masa ini."

Ketika kami sampai pada tahun 2015 landskap telah berubah kerana beberapa pelanggan kami telah melampaui storan yang mereka miliki dalam kelompok produksi mereka. Ia menjadi sangat penting bagi mereka untuk melihat apa yang boleh ditawarkan oleh Syncsort. Jika anda mengambil beberapa data dari pangkalan data atau kerangka utama dan menulis ke dalam format parket dalam kelompok, sama ada anda mendarat dan pentas dan melakukan transformasi lain atau hanya melakukan transformasi inframerah dan mendaratkan format fail sasaran, membuat perbezaan kerana anda menyimpan dari penyimpanan, anda menyimpan dari lebar jalur rangkaian, anda menyimpan dari beban kerja pada kluster kerana anda tidak menjalankan pekerjaan tambahan. Kekuatan yang kita bermain dari segi sangat sedar, kita merasakan kecekapan sumber di bawah kulit kita, nampaknya.

Itulah bagaimana kita menerangkannya. Ia penting bagi kita. Kami tidak mengambil begitu sahaja. Kami tidak pernah mengambil begitu sahaja sehingga kami akan terus menjadi kuat dengan leverage itu di Apache Spark atau rangka komputer seterusnya. Itu akan terus menjadi tumpuan kami. Dan dari segi sekeping pergerakan data dan sekatan akses data, tentunya ia adalah salah satu kekuatan kami dan kami mengakses data DB2 atau VSAM pada kerangka utama dalam konteks Hadoop atau Spark.

Eric Kavanagh: Nah, itulah cara terbaik untuk mengakhiri siaran web, orang. Terima kasih banyak untuk masa dan perhatian anda. Terima kasih kepada anda, Tendü dan Syncsort, untuk masuk ke bilik taklimat dan melangkah ke pusingan, sebagaimana yang mereka katakan. Banyak soalan hebat dari penonton. Ia persekitaran yang sentiasa bergerak di luar sana, orang ramai. Kami akan mengarkibkan Tech Hot ini seperti yang kita lakukan dengan semua yang lain. Anda boleh menemui kami di insideanalysis.com dan di techopedia.com. Biasanya ia naik dalam sehari. Dan dengan itu, kami akan membida anda perpisahan, orang. Terima kasih banyak-banyak. Kami akan bercakap dengan anda tidak lama lagi. Jaga diri. Selamat tinggal.

Besi besar, memenuhi data besar: membebaskan data kerangka utama dengan hadoop dan percikan api