Rumah Pangkalan data Kuasa cadangan: bagaimana katalog data memberdayakan penganalisis

Kuasa cadangan: bagaimana katalog data memberdayakan penganalisis

Anonim

Dengan Staff Techopedia, 22 Jun 2016

Takeaway: Host Rebecca Jozwiak membincangkan kelebihan katalog data dengan Dez Blanchfield, Robin Bloor dan David Crawford.

Anda mesti mendaftar untuk acara ini untuk melihat video. Daftar untuk melihat video.

Rebecca Jozwiak: Tuan-tuan dan puan-puan, salam dan selamat datang ke Hot Technologies 2016. Hari ini kita punya, "Kuasa Cadangan: Bagaimana Katalog Data Memperkasakan Penganalisis." Saya adalah tuan rumah anda Rebecca Jozwiak, mengisi tuan rumah kami yang biasa Eric Kavanagh hari ini, semasa dia mengembara dunia, jadi terima kasih kerana menyertai kami. Tahun ini panas, ia bukan hanya panas di Texas di mana saya berada, tetapi ia panas di seluruh tempat. Terdapat letupan semua jenis teknologi baru yang keluar. Kami mempunyai IOT, data aliran, penerimaan awan, Hadoop terus matang dan diterima pakai. Kami mempunyai automasi, pembelajaran mesin, dan semua perkara ini sudah tentu digariskan oleh data. Dan perusahaan menjadi semakin banyak data didorong oleh hari itu. Sudah tentu, perkara itu membawa kepada pengetahuan, dan penemuan dan, anda tahu, membuat keputusan yang lebih baik. Tetapi untuk benar-benar mendapatkan nilai paling banyak dari data, ia perlu mudah untuk sampai ke. Sekiranya anda menyimpannya dikunci, atau dikebumikan, atau di dalam otak beberapa orang di dalam perusahaan, ia tidak akan memberi banyak manfaat kepada perusahaan secara keseluruhan.

Dan saya agak berfikir tentang pengkatalogan data dan pemikiran kursus perpustakaan, di mana lama anda berada di mana anda pergi jika anda perlu mencari sesuatu, jika anda perlu untuk menyelidik topik, atau mencari maklumat, anda pergi ke perpustakaan, dan sudah tentu anda pergi ke katalog kad, atau wanita krabby yang bekerja di sana. Tetapi ia juga menyeronokkan untuk bersiar-siar di sekeliling, jika anda hanya mahu melihat, dan pasti anda mungkin menemui sesuatu yang kemas, anda mungkin mengetahui beberapa fakta menarik yang anda tidak tahu, tetapi jika anda benar-benar perlu mencari sesuatu, dan anda tahu apa yang anda cari, anda memerlukan katalog kad, dan tentu saja persamaan perusahaan adalah katalog data, yang dapat membantu bersinar pada semua data bagi pengguna kami untuk memperkaya, menemui, berkongsi, menggunakan dan benar-benar membantu orang mendapatkan data lebih cepat dan lebih mudah.

Jadi pada hari ini, kami mempunyai Dez Blanchfield, saintis data kami sendiri, dan kami mempunyai Doktor Robin Bloor, penganalisis utama kami, kami mempunyai David Crawford dari Alation, yang akan membicarakan kisah pengkatalogan data syarikatnya, tetapi pertama kita akan memimpin dengan Dez. Dez, saya lulus bola kepada anda dan lantai adalah milik anda.

Dez Blanchfield: Terima kasih, terima kasih kerana mempunyai saya hari ini. Ini adalah perkara yang saya sangat berminat, kerana hampir setiap organisasi yang saya jumpai dalam kerja sehari-hari saya, saya dapati persoalan yang sama yang kita bicarakan secara ringkas dalam bantahan pra-persembahan, dan itu kebanyakan organisasi yang telah menjalankan perniagaan selama lebih dari beberapa tahun mempunyai banyak data yang dikebumikan di sekitar organisasi, format yang berbeza, dan sebenarnya saya mempunyai pelanggan yang mempunyai set data yang kembali ke Lotus Notes, pangkalan data yang masih berjalan di beberapa kes-kes sebagai internet pseudo mereka, dan mereka semua sedang berjalan ke dalam cabaran ini untuk mencari maklumat di mana data mereka, dan bagaimana untuk mendapatkan akses kepadanya, yang memberikan akses kepadanya, apabila menyediakan akses kepada mereka, dan bagaimana katalog, dan bagaimana untuk mendapatkannya ke tempat di mana semua orang boleh: A) sedar apa yang ada dan apa yang ada di dalamnya, dan B), bagaimana untuk mendapatkan akses kepadanya dan menggunakannya. Dan salah satu cabaran yang paling utama ialah mencarinya, cabaran besar yang lain adalah mengetahui apa yang ada di sana dan bagaimana untuk mengaksesnya.

Saya mungkin tahu bahawa saya mempunyai puluhan pangkalan data, tetapi saya tidak benar-benar tahu apa yang ada di dalamnya atau bagaimana untuk mengetahui apa yang ada di dalamnya, dan selalu seperti yang kita temui sekarang dalam data pra-tayangan, anda cenderung untuk berjalan-jalan di sekitar pejabat dan bertanya soalan, dan menjerit-jerit dinding kubus dan cuba dan memikirkan, sering pengalaman saya, anda mungkin mendapati anda pergi ke kaunter depan, penerimaan, dan bertanya jika ada yang tahu siapa anda akan bercakap dengan. Seringkali, ia tidak semestinya orang IT kerana mereka tidak menyedari set data kerana seseorang itu hanya menciptanya, dan ia boleh menjadi sesuatu yang mudah seperti biasa - agaknya kita akan menemui satu projek semacam yang berdiri di dalam persekitaran IT dan pengurus projek menggunakan spreadsheet semua perkara, dan mendapat sedikit maklumat berharga di sekeliling aset dan konteks dan nama, dan melainkan anda tahu projek itu dan anda tahu orang itu, anda tidak dapat mencari maklumat itu. Ia tidak boleh didapati, dan anda perlu memegang fail asal itu.

Terdapat frasa yang ditonjolkan berkaitan dengan data dan saya tidak sepatutnya bersetuju dengannya, tetapi saya fikir ia adalah percikan sedikit comel dan itu adalah bahawa sesetengah orang berfikir bahawa data adalah minyak baru, dan saya pasti kita akan membincangkan bahawa dalam beberapa aspek juga, pada hari ini. Tetapi apa yang saya perhatikan, sudah tentu menjadi sebahagian daripada transformasi itu, adalah organisasi perniagaan yang telah belajar untuk menghargai data mereka telah mendapat kelebihan yang ketara berbanding pesaing mereka.

Terdapat kertas kerja yang menarik oleh IBM, kira-kira lima atau enam tahun lalu, dan mereka meninjau kira-kira 4, 000 syarikat di sini di Australia, dan mereka mengambil semua maklumat, semua data prestasi, semua data kewangan dan meletakkannya bersama dalam periuk mendidih dan kemudian menghantarnya ke Sekolah Ekonomi Australia, dan mereka sebenarnya memulakan satu trend yang sama di sini, dan itu adalah bahawa syarikat-syarikat yang memanfaatkan teknologi selalu mendapat kelebihan daya saing daripada rakan-rakan dan pesaing mereka seolah-olah pesaing mereka hampir tidak pernah mengejar, dan saya fikir itu sangat berlaku sekarang dengan data yang kita telah melihat apa yang orang panggil transformasi digital di mana organisasi yang telah jelas menggariskan cara untuk mencari data yang mereka punya, untuk membuat data itu tersedia, dan menjadikannya tersedia dalam beberapa habis dipakai sangat mudah fesyen kepada organisasi, tanpa semestinya sentiasa mengetahui mengapa organisasi mungkin memerlukannya, dan mendapat kelebihan yang ketara berbanding pesaing.

Saya mempunyai beberapa contoh pada slaid ini, yang boleh anda lihat. Satu barisan saya ialah, gangguan besar-besaran di hampir setiap sektor industri, pada pandangan saya, didorong oleh data, dan jika trend semasa adalah apa-apa untuk pergi, pandangan saya adalah kita hanya benar-benar baru saja mendapat bermula kerana apabila jenama lama akhirnya bangun untuk apa maksudnya dan memasuki permainan, mereka akan memasuki permainan di borong. Apabila jenis peruncit utama yang mempunyai gunung data mula menggunakan beberapa analisis sejarah pada data, jika mereka tahu itu ada, maka beberapa pemain dalam talian akan mendapat sedikit panggilan bangun.

Tetapi dengan kebanyakan kebanyakan jenama ini, maksud saya kami telah mendapat Uber yang merupakan syarikat teksi terbesar di dunia. Mereka tidak memiliki apa-apa teksi, jadi apa yang membuatkan mereka sihir, apa data mereka? Airbnb, penyedia penginapan terbesar, kami mempunyai WeChat, syarikat telefon terbesar di dunia, tetapi mereka tidak mempunyai infrastruktur sebenar, dan tiada telefon bimbit, tiada talian telefon. Alibaba, peruncit terbesar di planet ini, tetapi mereka tidak memiliki sebarang inventori. Facebook, syarikat media terbesar dalam kata itu. Saya fikir pada kiraan terakhir mereka mempunyai 1.4 bilion pengguna data aktif sekarang, yang merupakan nombor mind-boggling. Tidak ada di mana-mana - Saya fikir seseorang mendakwa bahawa satu perempat planet sebenarnya ada di sana setiap hari, tetapi di sini adalah penyedia kandungan yang sebenarnya tidak mencipta kandungan, semua data yang mereka layani tidak dicipta oleh mereka, ia dicipta oleh pelanggan mereka, dan kita semua tahu model ini.

SocietyOne, yang anda mungkin atau mungkin tidak pernah mendengar, adalah jenama tempatan, saya fikir di beberapa negara itu bank yang sebenarnya melakukan pinjaman peer-to-peer, jadi dengan kata lain, ia tidak mempunyai wang. Apa yang dilakukan ialah mengurus urus niaga dan data yang terletak di bawahnya. Netflix, kita semua sangat akrab dengannya. Terdapat satu-liner yang menarik di sini. Apabila Netflix secara sah dapat digunakan di Australia, apabila ia diumumkan secara rasmi, anda tidak perlu menggunakan VPN untuk mendapatkannya, ramai orang di seluruh dunia cenderung - sekiranya anda tidak boleh mendapatkannya di kawasan setempat anda - apabila Netfix dilancarkan di Australia, ia meningkatkan jalur lebar antarabangsa pada pautan internet kami sebanyak 40 peratus, sehingga hampir dua kali ganda kegunaan internet di Australia dalam satu malam, hanya dengan satu aplikasi, satu aplikasi yang dihoskan awan yang tidak ada tetapi bermain dengan data. Ia hanya statistik yang sukar difahami.

Dan tentu saja, kita semua akrab dengan Apple dan Google, tetapi ini adalah perniagaan perisian terbesar di planet ini, namun mereka sebenarnya tidak menulis aplikasinya. Apakah perkara yang konsisten dengan semua organisasi ini? Nah, data itu, dan mereka tidak sampai di sana kerana mereka tidak tahu di mana data mereka, dan mereka tidak tahu bagaimana untuk mengkatalogkannya.

Apa yang kita temukan sekarang ialah terdapat kelas aset baru yang dirujuk sebagai data, dan syarikat-syarikat terbangun kepadanya. Tetapi mereka tidak selalu mempunyai alat dan pengetahuan dan oleh sebab itu untuk memetakan semua data itu, untuk mengkatalogkan semua data itu dan menjadikannya tersedia, tetapi kami mendapati bahawa syarikat dengan hampir tidak mempunyai aset fizikal telah memperoleh nilai pasaran yang tinggi masa rekod melalui kelas aset data baru ini. Seperti yang saya katakan, beberapa pemain lama kini bangun untuk ini dan pasti membawanya keluar.

Saya seorang peminat besar untuk mengambil rakyat sedikit perjalanan, jadi pada lapan belas ratusan, lewat lapan belas ratusan, dan anda akan lebih akrab dengan ini di pasaran Amerika Syarikat, ternyata untuk menjalankan banci setiap tahun atau lebih, saya fikir mereka berlari mereka setiap sepuluh tahun pada ketika itu, tetapi jika anda akan menjalankan banci setiap tahun, anda boleh mengambil lapan atau sembilan tahun untuk benar-benar melakukan analisis data. Ternyata bahawa set data kemudian ditinggalkan di dalam kotak di tempat-tempat di atas kertas, dan hampir tidak ada yang dapat menemukannya. Mereka hanya terus mengepam laporan-laporan ini, tetapi data sebenarnya sangat sukar untuk dicapai, kita mempunyai keadaan yang sama dengan masa yang penting dunia yang lain, sekitar tahun 1940-an, dengan Perang Dunia Kedua, dan perkara ini adalah Bletchley Park Bombe dieja BOMBE, dan ia adalah alat analisa nombor-besar yang akan melalui set data kecil dan mencari isyarat di dalamnya, dan digunakan untuk membantu memecahkan kod melalui Enigma.

Perkara ini sekali lagi, pada asasnya adalah peranti yang direka, tidak banyak untuk katalog, tetapi untuk menandai dan memetakan data, dan membuat kemungkinan untuk mengambil corak dan menemuinya di dalam set data, dalam kes ini, memecahkan kod, cari kekunci dan frasa dan cari mereka secara teratur dalam set data, dan oleh itu kami telah melalui perjalanan mencari perkara dalam data, dan mengarah ke data pengkatalogan.

Dan kemudian perkara-perkara ini datang, rak-rak besar kos rendah mesin, hanya di luar mesin rak. Dan kami melakukan beberapa perkara yang sangat menarik, dan salah satu perkara yang kami lakukan dengannya ialah kami membina kelompok kos yang sangat rendah yang boleh mula mengindeks planet ini, dan sangat terkenal dengan jenama besar yang telah datang dan pergi, tetapi mungkin Google adalah rumah yang paling biasa jenama yang kita semua dengar - ia menjadi kata kerja sebenar, dan anda tahu anda berjaya apabila jenama anda menjadi kata kerja. Tetapi apa yang diajar oleh Google, tanpa menyedari, mungkin dalam dunia perniagaan, ialah mereka dapat mengindeks seluruh planet ke tahap tertentu, dan mengkatalogkan data yang ada di seluruh dunia, dan menjadikannya mudah, bentuk mudah dalam formula satu-line kecil, laman web dengan hampir tidak ada di dalamnya, dan anda menaip pertanyaan anda, ia pergi dan mendapatinya kerana mereka telah merangkak planet ini, mengindeksinya dan menjadikannya mudah didapati.

Dan apa yang kami perhatikan adalah, "Baiklah, kami tidak melakukan ini dalam organisasi - mengapa begitu? Kenapa kita mempunyai organisasi yang boleh memetakan seluruh planet dan indeks, merangkak dan mengindeksnya, dan menjadikannya tersedia, kita boleh mencarinya, dan kemudian klik pada perkara untuk pergi dan cari, bagaimana kita tidak melakukan itu secara dalaman? "Oleh itu terdapat banyak rak kecil mesin di seluruh dunia sekarang yang melakukan itu untuk intranet dan mencari sesuatu, tetapi mereka masih benar-benar hanya datang untuk mengatasi dengan idea untuk melampaui web tradisional halaman, atau pelayan fail.

Sebaliknya kini memasuki katalog data generasi berikut ini dengan banyak cara, menemui akses data melalui nota pos dan perbualan sejuk air tidak benar-benar cara yang sesuai untuk penemuan data dan pengkatalogan lagi, dan sebenarnya, saya tidak fikir ia pernah betul betul. Kami tidak lagi dapat memimpin cabaran keseluruhan kepada orang yang hanya melewati nota, dan menghantar catatan, dan berbual dengannya. Kami baik dan benar-benar di luar kawasan sekarang di mana pendekatan seterusnya-gen untuk pengkatalogan data telah datang dan hilang. Kita perlu mendapatkan tangan kita. Sekiranya ini merupakan isu yang mudah, kami sudah menyelesaikannya dalam banyak cara sebelum ini, tetapi saya fikir ia bukan satu isu yang mudah, hanya mengindeks dan memanggil data hanya satu bahagian, mengetahui apa yang ada dalam data dan membina metadata di sekitar apa yang kami temukan, dan kemudian menjadikannya mudah dalam bentuk yang mudah dibuang, terutamanya untuk layan diri dan analisis. Ia masih masalah yang diselesaikan, tetapi banyak bahagian teka-teki dalam tempoh lima tahun adalah baik dan benar-benar diselesaikan dan tersedia.

Seperti yang kita ketahui, manusia mengkatalogkan data adalah resipi kegagalan kerana kesilapan manusia adalah salah satu mimpi buruk terbesar yang kita berurusan dengan dalam pemprosesan data, dan saya sering bercakap tentang topik ini di mana pada pandangan saya, manusia yang mengisi borang kertas mungkin mimpi ngeri terbesar kami berurusan dengan data dan analitik yang besar, untuk terus membetulkan perkara yang mereka lakukan, walaupun kepada perkara yang mudah seperti tarikh dan bidang, orang yang memasukkannya dalam format yang salah.

Tetapi seperti yang saya katakan, kita telah melihat indeks carian internet indeks dunia setiap hari, jadi sekarang kita membuatnya kepada idea bahawa itu boleh dilakukan pada data perniagaan yang ditetapkan dalam proses penemuan, dan alat dan sistem sekarang sedia ada seperti yang anda akan belajar hari ini. Jadi silap mata, benar-benar dalam pandangan saya, adalah memilih alat yang betul, alat terbaik untuk pekerjaan itu. Dan lebih tepat lagi, mencari bahagian yang tepat untuk membantu anda memulakan jalan ini. Dan saya percaya bahawa kita akan mendengar tentang hari ini, tetapi sebelum kita berbuat demikian, saya akan pergi ke kolej saya, Robin Bloor dan mendengar topiknya. Robin, bolehkah saya menyerahkan kepada anda?

Robin Bloor: Ya, tentu anda boleh. Mari kita lihat apakah ini berfungsi, ya ya. Okay, saya datang dari arah yang berbeza daripada Dez, tetapi saya akan berakhir di tempat yang sama. Ini adalah tentang menyambung ke data, jadi saya fikir saya akan melalui realiti menyambung ke data, point by point benar-benar.

Terdapat fakta bahawa data lebih terfragmentasi daripada yang pernah terjadi. Jumlah data semakin meningkat secara fenomenal, tetapi sebenarnya, sumber data yang berlainan juga berkembang pada kadar yang luar biasa, dan oleh itu data semakin semakin berpecah-belah sepanjang masa. Tetapi kerana aplikasi analitik khususnya - tetapi bukan satu-satunya aplikasi - kita mempunyai alasan yang sangat baik untuk menyambung kepada semua data ini, jadi kita terjebak di tempat yang sukar, kita terjebak dalam dunia data yang terfragmentasi, dan ada peluang dalam data yang Dez memanggilnya, minyak baru.

Mengenai data, baik, ia digunakan untuk hidup di cakera berputar, sama ada dalam sistem fail atau pangkalan data. Kini ia hidup dalam persekitaran yang lebih pelbagai, ia hidup dalam sistem fail tetapi ia juga hidup dalam keadaan Hadoop pada masa ini, atau juga kejadian Spark. Ia hidup dalam pelbagai spesies pangkalan data. Tidak lama dahulu, kami menyeragamkan beberapa pangkalan data relasional, baik anda tahu bahawa keluar jendela dalam tempoh lima tahun yang lalu, kerana ada keperluan untuk pangkalan data dokumen, dan ada keperluan untuk pangkalan grafik, sehingga anda tahu, permainan itu telah berubah. Jadi ia hidup di cakera berputar, tetapi kini hidup di SSD. Jumlah terkini SSD - pasti unit SSD terbaru yang keluar dari Samsung - dua puluh gigabait, yang sangat besar. Sekarang ia hidup dalam ingatan, dalam erti kata bahawa salinan data utama boleh di ingatan, bukannya pada cakera, kita tidak digunakan untuk membina sistem seperti itu; kita lakukan sekarang. Dan ia tinggal di awan. Yang bermaksud ia boleh hidup dalam mana-mana perkara ini, di awan, anda tidak semestinya tahu di mana ia berada dalam awan, anda hanya akan mempunyai alamatnya.

Hanya untuk merapatkan titik, Hadoop setakat ini, gagal sebagai kedai data yang boleh diperpanjang. Kami berharap ia akan menjadi sebuah kedai data berskala luas, dan ia akan menjadi satu sistem fail untuk segala-galanya, dan ia akan - pelangi akan muncul di langit, pada dasarnya, dan unicorns akan menari, dan tidak ada yang berlaku. Yang bermaksud kita menghadapi masalah pengangkutan data, dan tidak ada keperluan untuk pengangkutan data, kadang-kadang, tetapi juga kesukaran. Data benar-benar mempunyai graviti pada masa ini, sebaik sahaja anda telah masuk ke dalam pelbagai data teratas, mengambilnya dan membuangnya, sejenis kemungkinan latensi muncul di rangkaian anda, atau muncul di pelbagai tempat. Jika anda ingin mengangkut data di sekitar, masa adalah faktor. Terdapat hampir selalu, pada masa kini, ada batasan mengenai berapa banyak masa yang anda dapat untuk mendapatkan satu perkara, satu data dari satu tempat ke tempat lain. Ada dulu apa yang biasa kita pikirkan sebagai tingkap batch, ketika mesin itu adalah jenis idle, dan tidak peduli seberapa banyak data yang anda miliki, anda boleh membuangnya dan semuanya akan berhasil. Baiklah itu, kita hidup dalam dunia yang lebih real-time. Oleh itu pemasaan adalah faktor. Sebaik sahaja anda mahu memindahkan data, jadi jika data mempunyai graviti, anda mungkin tidak dapat memindahkannya.

Pengurusan data adalah faktor dalam arti bahawa anda sebenarnya telah menguruskan semua data ini, anda tidak memperolehnya secara percuma, dan replikasi mungkin diperlukan untuk benar-benar mendapatkan data untuk melakukan tugas yang perlu dilakukan, kerana ia mungkin tidak di mana sahaja anda meletakkannya. Ia mungkin tidak mempunyai sumber yang mencukupi untuk melakukan pemprosesan data biasa. Jadi data akan direplikasi, dan data akan direplikasi lebih daripada yang anda bayangkan. Saya fikir ada yang mengatakan kepada saya sejak lama bahawa sekeping data rata-rata direplikasi sekurang-kurangnya dua setengah kali. ESB atau Kafka menyajikan pilihan untuk aliran data, tetapi pada masa kini ia memerlukan seni bina. Kini anda perlu berfikir dalam satu atau lebih cara, tentang apa yang sebenarnya bermakna untuk membuang data di sekeliling. Oleh itu, untuk mengakses data di mana ia, biasanya lebih baik, selagi, tentu saja, anda boleh mendapatkan prestasi yang anda perlukan apabila anda sebenarnya pergi untuk data dan yang bergantung pada konteks. Jadi keadaannya sukar. Dari segi pertanyaan data, kita pernah dapat berfikir dari segi SQL, kita telah muncul sekarang, anda tahu, pelbagai pertanyaan, SQL ya, tetapi bersebelahan, juga pertanyaan graf, Spark hanya satu contoh melakukan graf, kerana kita juga perlu melakukan pencarian teks, lebih daripada yang pernah kita lakukan, juga jenis carian regex, yang sangat rumit mencari pola, dan pencocokan pola yang tulen, semua hal ini benar-benar menggelegak. Dan semuanya berguna kerana mereka dapat menjumpai apa yang anda cari, atau mereka boleh mendapatkan apa yang anda cari.

Pertanyaan sekarang hari rentang data berganda, jadi ia tidak selalu melakukan itu, dan sering prestasi yang mengerikan jika anda melakukannya. Oleh itu, ia bergantung kepada keadaan, tetapi orang menjangkakan dapat menanyakan data dari pelbagai sumber data, jadi federasi data satu jenis atau yang lain menjadi semakin banyak. Pemodelan data, yang merupakan cara yang berbeza untuk melakukannya, bergantung kepada prestasi, juga sangat umum. Pertanyaan data sebenarnya merupakan sebahagian daripada proses, bukan keseluruhan proses. Ia hanya bernilai menunjukkan bahawa jika anda benar-benar melihat prestasi analitik, analitik sebenar boleh mengambil jauh lebih besar daripada pengumpulan data, kerana itu bergantung kepada keadaan, tetapi pertanyaan data adalah keperluan mutlak jika anda ingin melakukan apa-apa jenis analitik pada pelbagai sumber data, dan hanya itu, sebenarnya anda harus mempunyai keupayaan yang berkisar.

Jadi mengenai katalog. Katalog ada sebabnya, sekurang-kurangnya kita mengatakan bahawa, anda tahu, kita ada direktori, dan kita mempunyai skema dalam pangkalan data, dan kita mempunyai setiap katalog dan ada di mana sahaja anda pergi, anda akan dapati satu tempat dan kemudian anda akan benar-benar mendapati bahawa terdapat beberapa jenis katalog, dan katalog global yang disatukan adalah satu idea yang sangat baik. Tetapi sangat sedikit syarikat mempunyai perkara sedemikian. Saya ingat, kembali pada tahun dua ribu - tahun dua ribu panik - saya ingat bahawa komunis tidak dapat mengecil berapa banyak executable mereka, tidak peduli berapa banyak kedai data yang berlainan yang mereka ada, dan ini mungkin berlaku sekarang, anda tahu, bahawa kebanyakan syarikat tidak tahu secara aktif dalam erti global, data yang mereka ada. Tetapi ia semakin menjadi perlu untuk benar-benar mempunyai katalog global, atau sekurang-kurangnya mempunyai gambaran global mengenai apa yang sedang berlaku kerana pertumbuhan sumber data, dan pertumbuhan aplikasi yang berterusan, dan ia amat diperlukan untuk analisis, kerana anda juga dalam satu cara, dan terdapat isu-isu lain di sini seperti garis keturunan dan masalah dengan data, dan perlu untuk keselamatan, banyak aspek tadbir urus data, jika anda benar-benar tidak tahu apa data yang anda punya, idea bahawa anda akan mentadbir ia hanya tidak masuk akal. Jadi, dalam semua itu, semua data yang dikelaskan dalam beberapa cara hanyalah satu fakta. Persoalannya ialah sama ada katalog itu adalah koheren, dan sebenarnya apa yang boleh anda lakukan dengannya. Jadi saya akan balik kepada Rebecca.

Rebecca Jozwiak: Baiklah, terima kasih Robin. Seterusnya kami telah mendapat David Crawford dari Alation, David Saya akan meneruskan dan melepas bola kepada anda, dan anda boleh membawanya.

David Crawford: Terima kasih banyak. Saya benar-benar menghargai anda yang mempunyai saya di pameran ini. Saya fikir saya akan memulakan ini, jadi saya fikir peranan saya di sini, adalah mengambil beberapa teori itu dan melihat bagaimana ia sebenarnya digunakan, dan keputusan yang kita dapat memandu pada pelanggan sebenar dan supaya anda dapat melihat beberapa di slaid, saya ingin bercakap tentang apa hasil yang kita akan dapat melihat dalam analisis mungkin peningkatan. Jadi untuk memotivasikan perbincangan, kita akan bercakap tentang bagaimana mereka sampai di sana. Oleh itu, saya bernasib baik untuk dapat bekerja dengan baik dengan ramai orang yang benar-benar pintar, pelanggan ini, dan saya hanya ingin menunjukkan beberapa yang benar-benar dapat mengukur, dan bercakap mengenai bagaimana mempunyai katalog data yang memberi kesan kepada penganalisis mereka aliran kerja. Dan hanya untuk seketika tinggal di depan, saya fikir salah satu daripada perkara yang kita lihat perubahan, dengan katalog data ayat-ayat penyelesaian mediasi terdahulu dan salah satu cara yang hubungannya benar-benar berfikir tentang penyelesaian yang kami sediakan, adalah bermula dari penganalisis dan bekerja ke belakang. Untuk mengatakan, mari kita buat ini untuk membolehkan produktiviti penganalisis. Berbanding hanya pematuhan, atau bertentangan dengan hanya inventori, kami membuat alat yang menjadikan penganalisis lebih produktif.

Jadi, apabila saya bercakap dengan seorang saintis data di syarikat perkhidmatan kewangan Square, ada seorang lelaki, Nick, yang memberitahu kita mengenai bagaimana dia, dia mengambil masa beberapa jam untuk mencari set data yang tepat untuk memulakan laporan, kini dia boleh lakukan dalam hitungan detik menggunakan carian di bahagian pasaran, kami bercakap dengan CTO mereka yang menarik para penganalisisnya yang menggunakan Square, maafkan saya, menggunakan Alation, untuk mengetahui apa yang mereka, manfaat apa yang mereka lihat, dan mereka melaporkan 50 produktiviti peratus meningkatkan, dan bahawa, salah satu daripada peruncit terkemuka di dunia, eBay, mereka telah mendapat lebih dari seribu orang yang melakukan analisis SQL secara teratur, dan saya bekerja dengan baik dengan Deb Says di sana, yang merupakan projek pengurus dalam pasukan alat data mereka, dan dia mendapati bahawa apabila para penginta menerima Alation, mengamalkan katalog, mereka melihat dua kali ganda kelajuan menulis pertanyaan baru terhadap pangkalan data.

Jadi ini adalah hasil sebenar, ini adalah orang yang sebenarnya memohon katalog dalam organisasi mereka, dan saya mahu membawa anda melalui apa yang diperlukan untuk ditubuhkan. Bagaimana sebuah katalog dapat ditubuhkan dalam sebuah syarikat, dan mungkin perkara yang paling penting untuk dikatakan, adalah banyak perkara yang berlaku secara automatik, jadi Dez bercakap tentang sistem, belajar mengenai sistem, dan itulah yang dilakukan oleh katalog data moden. Jadi mereka memasang Alation di pusat data mereka dan kemudian mereka menyambungnya ke pelbagai sumber metadata dalam persekitaran data mereka. Saya akan memberi tumpuan sedikit pada pangkalan data dan alat BI - dari kedua-dua ini kita akan mengekstrak metadata teknikal, pada dasarnya apa yang ada. Betul, apa jadual apa? Apa laporan? Apakah definisi laporan? Jadi, mereka mengekstrak metadata teknikal itu, dan halaman katalog dicipta secara automatik untuk setiap objek di dalam sistem tersebut, dan kemudian, mereka juga mengekstrak dan lapisan di atas metadata teknikal itu, mereka lapisan di atas data penggunaan. Ini terutama dilakukan dengan membaca log pertanyaan dari pangkalan data, dan ini adalah sumber maklumat yang sangat menarik. Jadi, apabila seorang penganalisis menulis pertanyaan, setiap kali alat pelapor, sama ada rumah ditanam, atau di luar rak, sama ada alat pelapor menjalankan pertanyaan untuk mengemas kini papan pemuka, apabila aplikasi menjalankan pertanyaan untuk memasukkan data untuk beroperasi pada set data - semua perkara yang ditangkap dalam log pangkalan data pangkalan data. Sama ada anda mempunyai katalog atau tidak, ia ditangkap dalam log pertanyaan dengan pangkalan data. Apa yang dapat dilakukan katalog katalog, dan apa yang boleh dilakukan oleh katalog Alation, baca log tersebut, tanya pertanyaan di dalamnya, dan buat graf penggunaan yang sangat menarik berdasarkan log tersebut, dan kami akan memainkannya untuk memaklumkan kepada pengguna masa depan daripada data tentang bagaimana pengguna data masa lalu telah menggunakannya.

Oleh itu, kami membawa semua pengetahuan itu bersama-sama ke dalam katalog, dan semata-mata untuk membuat ini nyata, ini adalah pengintegrasian yang sudah dikerahkan kepada pelanggan, jadi, kami telah melihat Oracle, Teradata, Redshift, Vertica dan sekumpulan lainnya pangkalan data hubungan. Di dunia Hadoop, terdapat pelbagai SQL pada Hadoop, jenis relasi, kedai meta di atas sistem fail Hadoop, Impala, Tez, Presto dan Hive, kami juga melihat kejayaan dengan pembekal swasta Hadoop awan seperti Altiscale, dan kami juga telah dapat menyambung ke pelayan Tableau, pelayan MicroStrategy dan indeks papan pemuka di sana, serta integrasi dengan alat penanda sains data seperti Plotly.

Oleh itu, kami menyambung ke semua sistem ini, kami telah menghubungkan sistem ini kepada pelanggan, kami telah menarik metadata teknikal, kami telah menarik data penggunaan, dan kami menyusun katalog data secara automatik, tetapi dengan cara itu, kami memusatkan pengetahuan, tetapi hanya memusatkan sesuatu ke dalam katalog data, tidak dengan sendirinya memberikan peningkatan produktiviti yang sangat baik yang kita bincangkan dengan eBay, Square dan bahagian pasaran. Untuk melakukan itu, kita sebenarnya perlu mengubah cara yang kita fikirkan menyampaikan pengetahuan kepada penganalisis. Salah satu persoalan yang mereka minta untuk menyediakannya ialah, "Bagaimana katalog sebenarnya memberi kesan kepada aliran kerja penganalisis?"

Itulah apa yang kita luangkan sepanjang hari memikirkan, dan untuk membicarakan perubahan ini dalam pemikiran, ayat-ayat menolak model menarik, saya ingin membuat analogi cepat terhadap dunia seperti sebelum dan sesudah membaca pada Kindle. Jadi, ia hanya pengalaman yang mungkin ada di antara kamu, ketika kamu sedang membaca buku fizikal, kamu dapat melihat kata-kata, kamu tidak pasti kamu tahu definisi perkataan itu dengan baik, mungkin anda mungkin menganggapnya dari konteks, tidak mungkin anda akan bangun dari sofa, berjalan kaki ke rak buku anda, cari kamus anda, debukannya, dan flip ke tempat yang betul dalam senarai perkataan abjad untuk memastikan bahawa, ya anda mempunyai definisi itu tepat, dan anda tahu nuansa itu. Jadi ia tidak benar-benar berlaku. Jadi anda membeli aplikasi Kindle dan anda mula membaca buku di sana, dan anda melihat perkataan yang anda tidak pasti dan anda menyentuh perkataan itu. Semua tiba-tiba, betul-betul di skrin yang sama, adalah definisi kamus perkataan, dengan semua nuansa, contoh penggunaan yang berbeza, dan anda sapu sedikit, dan anda mendapat artikel Wikipedia mengenai topik itu, anda mendapat alat terjemahan yang boleh diterjemahkan ke dalam bahasa lain atau dari bahasa-bahasa lain, dan secara tiba-tiba pengetahuan anda tentang bahasa itu jauh lebih kaya, dan ia hanya berlaku dengan banyak kali, berbanding ketika anda perlu pergi dan tarik sumber itu untuk diri sendiri.

Dan apa yang saya akan berhujah, adalah bahawa alur kerja untuk penganalisis dan cara penganalisis akan berurusan dengan dokumentasi data, sebenarnya sangat mirip dengan bagaimana pembaca akan berinteraksi dengan kamus, sama ada fizikal, atau walaupun Kindle, dan apa yang kami, cara kami benar-benar melihat peningkatan produktiviti ini, tidak menumpahkan katalog, tetapi menghubungkannya dengan alur kerja penganalisis, dan oleh itu, mereka telah meminta saya melakukan demo di sini, dan saya mahu untuk menjadikan tumpuan persembahan ini. Tetapi saya hanya mahu menetapkan konteks demo tersebut. Apabila kita berfikir tentang menolak pengetahuan data kepada pengguna apabila mereka memerlukannya, kita fikir tempat yang betul untuk melakukannya, tempat di mana mereka menghabiskan masa dan di mana mereka melakukan analisis, adalah alat pertanyaan SQL. Tempat di mana anda menulis dan menjalankan pertanyaan SQL. Dan jadi kami membina satu, dan kami membinanya, dan perkara yang sangat berbeza tentangnya dari alat pertanyaan lain adalah integrasi yang mendalam dengan katalog data.

Oleh itu, alat pertanyaan kami dipanggil Alation Compose. Ini alat pertanyaan berasaskan web dan saya akan tunjukkan kepada anda seminit. Alat pertanyaan berasaskan web yang berfungsi merentasi semua logo pangkalan data yang anda lihat pada slaid sebelumnya. Apa yang akan saya cuba untuk demo khususnya adalah cara maklumat katalog datang kepada pengguna. Dan ia melakukannya melalui tiga cara yang berbeza ini. Ia dilakukan melalui campur tangan, dan di sinilah seseorang yang menjadi gabenor data, atau pelayan data, atau jenis pentadbir dengan cara tertentu, atau seorang pengurus, boleh berkata, "Saya ingin menyusun kata sepakat dengan nota atau amaran dalam alur kerja dan pastikan ia dihantar kepada pengguna pada masa yang sesuai. "Jadi itulah campur tangan dan kami akan menunjukkannya.

Cadangan pintar adalah cara alat menggunakan semua pengetahuan agregat katalog untuk mencadangkan objek dan bahagian pertanyaan seperti yang anda tulis. Perkara yang paling penting untuk diketahui ialah bahawa ia benar-benar mengambil kesempatan daripada log pertanyaan untuk melakukan itu, untuk mencadangkan perkara berdasarkan penggunaan dan juga untuk mencari sebahagian daripada pertanyaan yang telah ditulis sebelumnya. Dan kami akan menunjukkannya.

Dan kemudian pratonton. Pratonton adalah, semasa anda menaip nama objek, kami menunjukkan kepada anda semua yang diketahui oleh katalog, atau sekurang-kurangnya perkara yang paling relevan yang katalog mengetahui mengenai objek tersebut. Jadi sampel data, yang telah menggunakannya sebelum ini, nama logik dan perihalan objek itu, semuanya datang kepada anda semasa anda menulis tanpa perlu memintanya.

Jadi tanpa bercakap lagi, saya akan pergi ke demo, dan saya hanya akan menunggu untuk muncul. Apa yang saya akan tunjukkan kepada anda di sini ialah alat pertanyaan. Ia adalah antara muka tulisan SQL berdedikasi. Ini antara muka yang berasingan dari katalog, dalam erti kata tertentu. Dez dan Robin bercakap mengenai katalog itu, dan saya melompat sedikit ke atas antara muka katalog langsung ke arah bagaimana ia dibawa terus ke dalam perkhidmatan alur kerja.

Saya hanya menunjukkan di sini tempat saya boleh menaip SQL, dan di bahagian bawah anda akan melihat bahawa kita jenis mempunyai beberapa maklumat yang muncul mengenai objek yang kita rujuk. Jadi saya hanya akan mula menaip pertanyaan dan saya akan berhenti apabila saya sampai ke salah satu daripada intervensi ini. Jadi saya akan menaip "pilih, " dan saya mahu tahun ini. Saya mahu nama itu. Dan saya akan mencari beberapa data gaji. Jadi ini adalah satu set data pendidikan. Ia mempunyai maklumat mengenai institusi pendidikan tinggi, dan saya melihat purata gaji fakulti yang ada di salah satu jadual ini.

Jadi, saya sebenarnya telah menaip perkataan "gaji." Ia tidak betul-betul di dalam nama lajur itu. Kami menggunakan metadata logik dan metadata fizikal untuk membuat cadangan. Dan apa yang saya maksudkan di sini adalah kotak kuning ini yang muncul di sini. Ia mengatakan ada amaran pada lajur ini. Saya tidak mencari itu, saya tidak mengambil kelas mengenai cara menggunakan data ini dengan betul. Ia datang kepada saya, dan ia menjadi amaran tentang perjanjian kerahsiaan yang berkaitan dengan data ini. Jadi terdapat beberapa peraturan pendedahan. Sekiranya saya akan menanyakan data ini, saya akan mengambil data daripada jadual ini, saya harus berhati-hati tentang bagaimana saya mendedahkannya. Oleh itu, anda mempunyai dasar tadbir urus di sini. Terdapat beberapa cabaran pematuhan yang menjadikannya lebih mudah untuk mematuhi dasar ini apabila saya tahu mengenainya ketika saya melihat data tersebut.

Oleh itu, saya mendapat maklumat yang datang kepada saya, dan saya juga akan melihat tuisyen. Dan di sini kita melihat pratonton dimainkan. Pada lajur ini, saya nampak - terdapat ruang tuition di meja institusi, dan saya melihat profil itu. Alation pergi dan menarik data sampel dari jadual, dan dalam kes ini, ia menunjukkan sesuatu yang cukup menarik. Ia menunjukkan saya pengagihan nilai-nilai, dan ia menunjukkan kepada saya bahawa nilai sifar muncul 45 kali dalam sampel, dan lebih daripada apa-apa nilai lain. Jadi saya faham bahawa kita mungkin kehilangan beberapa data.

Jika saya seorang penganalisis lanjutan, maka ini mungkin menjadi sebahagian daripada aliran kerja saya. Terutama jika saya seorang yang sangat teliti, di mana saya akan melakukan banyak pertanyaan profil terlebih dahulu. Apabila saya menghampiri sekeping data baru, saya selalu berfikir tentang liputan data kami. Tetapi jika saya baru untuk analisis data, jika saya baru kepada set data ini, saya mungkin mengandaikan bahawa jika ada lajur, ia diisi dalam semua masa. Atau saya mungkin mengandaikan bahawa jika ia tidak diisi, ia bukan sifar, ia tidak sah atau sesuatu seperti itu. Tetapi dalam kes ini, kita mempunyai banyak sifar, dan jika saya melakukan purata, mereka mungkin salah, jika saya hanya mengandaikan bahawa sifar itu benar-benar sifar daripada data yang hilang.

Tetapi, Alation, dengan membawa pratonton ini ke dalam alur kerja anda, semacam meminta anda melihat maklumat ini dan memberi semacam penganalisis pemula peluang untuk melihat bahawa terdapat sesuatu yang perlu diperhatikan di sini mengenai data tersebut. Jadi kami mempunyai pratonton itu.

Perkara seterusnya yang akan saya lakukan ialah saya akan cuba untuk mengetahui jadual-jadual untuk mendapatkan maklumat ini. Jadi di sini kita melihat cadangan pintar. Ia telah berjalan sepanjang masa, tetapi khususnya di sini, saya tidak menaip sebarang apa-apa tetapi ia akan mencadangkan kepada saya jadual mana yang mungkin saya ingin gunakan untuk pertanyaan ini. Dan perkara yang paling penting untuk mengetahui tentang ini adalah bahawa ia mengambil kesempatan daripada statistik penggunaan. Jadi dalam persekitaran seperti, misalnya, eBay, di mana anda mempunyai ratusan ribu jadual dalam satu pangkalan data, mempunyai alat yang boleh memukul gandum dari sekam, dan menggunakan statistik penggunaan itu, sangat penting untuk membuat ini cadangan bernilai sesuatu.

Jadi ia akan mencadangkan jadual ini. Apabila saya melihat pratonton, kita sebenarnya menyerlahkan tiga lajur yang telah saya sebutkan dalam pertanyaan saya. Jadi saya tahu bahawa ia mendapat tiga, tetapi ia tidak mempunyai nama. Saya perlu mendapatkan nama itu, jadi saya akan buat gabungan. Apabila saya menyertai, kini saya mempunyai pratonton ini untuk membantu saya mencari, di mana jadual dengan nama itu. Jadi saya nampak bahawa ini mempunyai nama yang betul diformat, jenis nama kapitalis yang betul. Ia seolah-olah mempunyai satu baris dengan nama untuk setiap institusi, jadi saya akan merebutnya, dan sekarang saya memerlukan syarat bergabung.

Dan sebagainya, di sini apa yang sedang dilakukan oleh Alation kembali melihat log pertanyaan, melihat masa lalu bahawa kedua-dua jadual ini telah disertai, dan mencadangkan cara yang berbeza untuk bergabung dengan mereka. Sekali lagi, ada beberapa campur tangan. Jika saya melihat salah satu daripada ini, ia mendapat amaran yang menunjukkan bahawa ini hanya boleh digunakan untuk analisis agregat. Ia mungkin akan menghasilkan perkara yang salah jika anda cuba melakukan sesuatu melalui institusi oleh institusi. Manakala yang satu ini, dengan ID OPE diendorskan sebagai cara yang betul untuk menyertai kedua-dua jadual ini jika anda mahukan data peringkat universiti. Jadi saya melakukan itu, dan itu adalah pertanyaan yang singkat, tetapi saya telah menulis pertanyaan saya tanpa semestinya mempunyai apa-apa wawasan tentang apa data itu. Saya tidak pernah benar-benar memandang gambarajah ER set data ini, tetapi saya tahu banyak mengenai data ini kerana maklumat yang relevan datang kepada saya.

Jadi mereka adalah jenis tiga cara katalog boleh, melalui alat pertanyaan bersepadu, secara langsung memberi kesan kepada alur kerja ketika anda menulis pertanyaan. Tetapi salah satu faedah lain yang mempunyai alat pertanyaan yang disepadu dengan katalog ialah, apabila saya menamatkan permintaan saya dan saya menyimpannya, saya boleh meletakkan tajuk seperti "Tuisyen Institusi dan Gaji Fakulti, " dan kemudian saya mempunyai butang di sini bahawa membolehkan saya hanya menerbitkannya ke katalog. Ia menjadi sangat mudah bagi saya untuk memberi makan kembali ini. Walaupun saya tidak menerbitkannya, ia ditangkap sebagai sebahagian daripada log pertanyaan, tetapi apabila saya menerbitkannya, ia sebenarnya menjadi sebahagian daripada cara tempat berpusat di mana semua pengetahuan data hidup.

Jadi jika saya mengklik Cari semua pertanyaan di Alation, saya akan diambil - dan di sini anda akan melihat lebih banyak antara muka katalog - Saya dibawa ke carian pertanyaan khusus yang menunjukkan saya cara untuk mencari pertanyaan di seluruh seluruh organisasi. Dan anda melihat bahawa pertanyaan saya baru diterbitkan adalah di bahagian atas. Dan ada yang mungkin perhatikan di sini, ketika kami menangkap pertanyaan, kami juga menangkap penulis, dan kami semacam menubuhkan hubungan ini antara saya sebagai pengarang dan objek data yang saya tahu tentang sesuatu. Dan saya ditubuhkan sebagai pakar dalam pertanyaan ini dan pada objek data ini. Itu sangat membantu apabila orang perlu belajar tentang data, maka mereka boleh mencari orang yang tepat untuk belajar. Dan jika saya benar-benar baru kepada data, sama ada saya penganalisis lanjutan - sebagai penganalisis maju, saya mungkin melihat ini dan melihat banyak contoh yang akan membuat saya bermula pada set data baru. Sebagai seseorang yang mungkin tidak merasa super cerdas dengan SQL, saya dapat mencari pertanyaan pra-dibuat yang melaporkan bahawa saya boleh mengambil kesempatan daripada.

Berikut adalah satu oleh Phil Mazanett mengenai skor SAT median. Klik pada ini, dan saya mendapatkan jenis halaman katalog untuk pertanyaan itu sendiri. Ia bercakap tentang artikel yang ditulis bahawa rujukan pertanyaan ini, jadi ada beberapa dokumentasi untuk saya baca jika saya ingin belajar cara menggunakannya. Dan saya boleh membukanya dalam alat pertanyaan dengan mengklik butang Compose, dan saya hanya boleh menjalankannya di sini tanpa menyuntingnya. Sebenarnya, anda dapat melihat sedikit kemampuan pelaporan ringan kami, di mana, apabila anda menulis pertanyaan, anda boleh menggugurkan pemboleh ubah template seperti ini dan ia membuat cara mudah untuk membuat borang untuk melaksanakan pertanyaan berdasarkan pada beberapa parameter.

Jadi itulah yang saya ada untuk demo itu. Saya akan beralih kembali ke slaid. Hanya dengan jenis rekap, kami menunjukkan bagaimana seorang pentadbir, seorang gabenor data, boleh campur tangan dengan meletakkan amaran pada objek yang muncul dalam alat pertanyaan, bagaimana Alation menggunakan pengetahuan tentang penggunaan objek data untuk membuat cadangan pintar, bagaimana ia membawa dalam profil dan petua lain untuk memperbaiki alur kerja penganalisis apabila mereka menyentuh objek tertentu, dan bagaimana semua suapan semacam itu kembali ke dalam katalog apabila pertanyaan baru ditulis.

Jelas sekali saya seorang jurucakap bagi pihak syarikat. Saya akan mengatakan perkara yang baik mengenai katalog data. Sekiranya anda ingin mendengar terus dari salah satu daripada pelanggan kami, Kristie Allen di Safeway menjalankan satu pasukan penganalisis dan mempunyai cerita yang sangat keren tentang masa yang diperlukan untuk mengalahkan jam untuk menyampaikan percubaan pemasaran dan bagaimana keseluruhannya pasukan menggunakan Alation untuk bekerjasama dan bertukar dengan cepat pada projek itu. Jadi, anda boleh mengikuti pautan bit.ly ini untuk memeriksa kisah itu, atau jika anda ingin mendengar sedikit tentang bagaimana Alation boleh membawa katalog data ke dalam organisasi anda, kami dengan senangnya menyediakan demo peribadi. Terima kasih banyak-banyak.

Rebecca Jozwiak: Terima kasih banyak, David. Saya yakin bahawa Dez dan Robin mempunyai beberapa soalan sebelum saya menyerahkan kepada Q & A khalayak. Dez, adakah anda mahu pergi dahulu?

Dez Blanchfield: Sudah tentu. Saya suka idea konsep pertanyaan yang diterbitkan dan menghubungkannya kembali ke sumber pengarangan. Saya telah menjadi juara lama idea ini kedai aplikasi dalaman dan saya fikir ini adalah asas yang sangat baik untuk membinanya.

Saya datang untuk mendapatkan sedikit pemahaman tentang beberapa organisasi yang anda lihat untuk melakukan ini, dan beberapa kisah kejayaan yang mereka mungkin ada dalam perjalanan ini bukan sahaja memanfaatkan alat dan platform anda untuk mencari data, tetapi juga mengubah sifat budaya dan tingkah laku dalaman mereka di sekeliling. Sekarang mempunyai kedai aplikasi seperti ini di mana anda hanya memuat turun, konsep di mana mereka tidak boleh hanya mencari, tetapi mereka sebenarnya boleh mula mengembangkan komuniti kecil dengan penjaga pengetahuan itu.

David Crawford: Ya, saya rasa kita terkejut. Kami percaya pada nilai pertanyaan perkongsian, dari masa lalu saya sebagai pengurus produk di Adtech dan dari semua pelanggan yang telah kami bicarakan, tetapi saya masih terkejut betapa kerap ini merupakan salah satu perkara pertama yang pelanggan bercakap tentang sebagai nilai yang mereka dapat dari Alation.

Saya melakukan beberapa ujian pengguna alat pertanyaan di salah satu pelanggan kami yang dikenali sebagai Invoice2go, dan mereka mempunyai pengurus produk yang agak baru, dan mereka berkata - dia sebenarnya memberitahu saya, tanpa bukti semasa ujian pengguna, "Saya tidak akan menulis SQL sekalipun kecuali ia dibuat mudah oleh Alation. "Dan semestinya, sebagai PM, saya agak pergi, " Apa maksud kamu, bagaimana kita melakukan itu? "Dan dia berkata, " Betul, sesungguhnya ia hanya kerana saya boleh log masuk dan saya dapat melihat semua pertanyaan yang ada. "Bermula dengan slate kosong dengan SQL adalah perkara yang sangat sukar untuk dilakukan, tetapi mengubah suai pertanyaan yang sedia ada di mana anda dapat melihat keputusan yang dikeluarkan dan anda boleh mengatakan, "Oh, saya hanya memerlukan lajur tambahan ini, " atau, "Saya perlu menyaringnya ke julat tarikh tertentu, " itu yang lebih mudah dilakukan.

Kami melihat jenis peranan sampingan ini, seperti pengurus produk, mungkin orang jualan ops, yang mula mengambil, dan yang selalu ingin belajar SQL dan mula mengambilnya dengan menggunakan katalog ini. Kami juga melihat bahawa banyak syarikat telah cuba melakukan jenis sumber terbuka. Saya telah cuba membina perkara-perkara ini secara dalaman, di mana mereka mengesan pertanyaan dan menjadikannya tersedia, dan ada beberapa jenis cabaran reka bentuk yang rumit untuk menjadikannya berguna. Facebook mempunyai alat dalaman yang mereka panggil HiPal yang semacam menangkap semua pertanyaan yang ditulis di Hive, tetapi apa yang anda ketahui ialah, jika anda tidak menyematkan pengguna dengan cara yang betul, anda hanya akan berakhir dengan senarai panjang pernyataan pilih yang panjang. Dan sebagai pengguna yang cuba mencari tahu jika pertanyaan berguna kepada saya atau jika ia bagus, jika saya hanya melihat senarai panjang pernyataan pilih, saya akan mengambil masa yang lebih lama untuk mendapatkan sesuatu daripada nilai di sana daripada bermula dari awal. Kami fikir dengan berhati-hati tentang bagaimana membuat katalog pertanyaan yang membawa barangan yang betul ke hadapan dan menyediakannya dengan cara yang berguna.

Dez Blanchfield: Saya fikir kita semua melalui perjalanan ini dari usia yang sangat muda, hingga dewasa, dalam pelbagai cara. Sekumpulan teknologi. Saya, secara peribadi, saya telah melalui perkara yang sama, seperti, belajar memotong kod. Saya akan melalui majalah dan kemudian buku-buku, dan saya akan belajar ke tahap tertentu, dan kemudian saya perlu pergi dan benar-benar mendapatkan lebih banyak latihan dan pendidikan di atasnya.

Tetapi secara tidak sengaja saya mendapati bahawa walaupun saya akan mengajar saya sendiri dan membaca majalah dan membaca buku dan memotong program orang lain dan pergi ke kursus di atasnya, saya masih belajar banyak daripada melakukan kursus seperti yang saya hanya bercakap dengan yang lain orang yang mempunyai pengalaman. Dan saya fikir ia adalah satu penemuan yang menarik bahawa, sekarang bahawa anda membawa itu kepada analisis data, pada dasarnya kita melihat bahawa selari yang sama, bahawa manusia adalah sangat pintar.

Perkara yang saya benar-benar berminat untuk difahami adalah, pada tahap yang sangat tinggi, banyak organisasi akan bertanya, "Berapa lama masa yang diperlukan untuk sampai ke tahap itu?" platform anda dipasang dan mereka mula menemui jenis alat? Berapa cepatnya orang melihat perkara ini menjadi momen "a-ha" yang benar-benar segera di mana mereka menyedari bahawa mereka tidak lagi bimbang tentang ROI kerana ia ada di sana, tetapi kini mereka sebenarnya mengubah cara mereka menjalankan perniagaan ? Dan mereka telah menemui seni yang hilang dan mereka mengharapkan mereka dapat melakukan sesuatu yang benar-benar menyeronokkan.

David Crawford: Ya, saya boleh menyentuhnya sedikit. Saya fikir apabila kita memasang, salah satu daripada perkara yang baik, salah satu perkara yang orang suka tentang katalog yang disambungkan secara langsung ke dalam sistem data, adalah bahawa anda tidak mula kosong di mana anda perlu memasukkannya dalam halaman mengikut halaman. Dan ini sememangnya benar mengenai penyelesaian data terdahulu di mana anda akan mula menggunakan alat kosong dan anda perlu mula membuat halaman untuk semua yang anda mahu dokumen.

Memandangkan kami mendokumentasikan begitu banyak perkara secara automatik dengan mengekstrak metadata, pada dasarnya dalam beberapa hari setelah perisian dipasang, anda boleh mempunyai gambar persekitaran data anda yang sekurang-kurangnya 80 peratus di sana. Dan kemudian saya fikir sebaik sahaja orang mula menulis pertanyaan dengan alat itu, mereka akan disimpan secara automatik kembali ke dalam katalog, dan supaya mereka akan mula muncul juga.

Saya tidak mahu terlalu berminat dalam menyatakannya. Saya fikir dua minggu adalah anggaran konservatif yang cukup baik, sebulan. Dua minggu hingga satu bulan, anggaran konservatif benar-benar berbalik dan berasa seperti anda mendapat nilai dari itu, seperti anda mula berkongsi pengetahuan dan dapat pergi ke sana dan mengetahui perkara mengenai data anda.

Dez Blanchfield: Ia cukup mengagumkan, betul-betul, apabila anda berfikir mengenainya. Hakikat bahawa sesetengah platform data yang besar yang anda indeks dan pengkatalogan secara berkesan akan mengambil masa sehingga setahun untuk melaksanakan dan menggunakan dan berdiri dengan betul.

Soalan terakhir yang saya ada untuk anda sebelum saya berikan kepada Robin Bloor, adalah penyambung. Salah satu perkara yang segera melompat kepada saya ialah anda telah mendapat cabaran keseluruhan yang diselesaikan. Jadi ada beberapa soalan yang sangat cepat. Satu, seberapa cepat penyambung dapat dilaksanakan? Jelas sekali anda bermula dengan platform terbesar, seperti Oracle dan Teradatas dan sebagainya dan DB2. Tetapi bagaimana kerapkah anda melihat penyambung baru datang, dan masa pemulihan apa yang mereka ambil? Saya bayangkan anda mempunyai rangka kerja standard untuk mereka. Dan sejauh mana anda masuk ke dalam? Sebagai contoh, Oracle dan IBM di dunia, dan juga Tereadata, dan kemudian beberapa yang lebih popular dari platform sumber terbuka akhir. Adakah mereka bekerja secara langsung dengan anda? Adakah anda mendapati diri anda? Adakah anda perlu mempunyai pengetahuan di dalam platform tersebut?

Apa yang kelihatan seperti membina penyambung, dan sejauh mana anda terlibat dengan perkongsian itu untuk memastikan penyambung itu menemui semua yang anda boleh lakukan?

David Crawford: Ya, sudah tentu, itu satu soalan yang hebat. Saya fikir untuk sebahagian besar, kita boleh membangunkan penyambung. Kami pasti melakukannya ketika kami adalah permulaan yang lebih muda dan tidak mempunyai pelanggan. Kita boleh membangunkan sambungan dengan pasti tanpa memerlukan akses dalaman. Kami tidak akan mendapat apa-apa akses khusus kepada sistem data yang tidak tersedia secara umum, dan sering tanpa memerlukan maklumat di dalamnya. Kami memanfaatkan perkhidmatan metadata yang tersedia oleh sistem data itu sendiri. Selalunya mereka boleh menjadi sangat kompleks dan sukar untuk bekerjasama. Saya tahu SQL Server khususnya, cara mereka menguruskan log pertanyaan, terdapat beberapa konfigurasi yang berbeza dan ia adalah sesuatu yang anda mesti bekerjasama. Anda harus memahami nuansa dan tombol dan memanggilnya untuk menetapkannya dengan betul, dan itulah sesuatu yang kami bekerjasama dengan pelanggan sejak kami melakukannya beberapa kali sebelum ini.

Tetapi pada tahap tertentu, ia jenis API awam yang tersedia atau antara muka awam yang tersedia yang kita leverage. Kami mempunyai perkongsian dengan beberapa syarikat ini, yang kebanyakannya merupakan alasan untuk pensijilan, supaya mereka merasa selesa mengatakan bahawa kami bekerja dan juga mereka dapat memberikan kami sumber untuk ujian, kadang-kadang akses awal mungkin ke platform yang keluar untuk memastikan bahawa kita bekerja pada versi baru.

Untuk menghidupkan sambungan baru, saya akan mengatakan sekali lagi, cuba menjadi konservatif, katakan enam minggu hingga dua bulan. Ia bergantung pada bagaimana ia serupa. Jadi beberapa Postgre bekerja sejenis kelihatan sangat mirip dengan Redshift. Redshift dan Vertica berkongsi banyak maklumat mereka. Jadi kita boleh memanfaatkan perkara-perkara itu. Tetapi ya, enam minggu hingga dua bulan akan adil.

Kami juga mempunyai API, jadi - kami memikirkan Alation sebagai platform metadata juga, jadi jika ada sesuatu yang tidak tersedia untuk kami menjangkau dan merebut secara automatik, ada cara yang anda boleh menulis penyambung itu sendiri dan mendorongnya ke dalam sistem kami jadi bahawa semuanya masih terpusat dalam enjin carian tunggal.

Dez Blanchfield: Hebat. Saya menghargainya. Jadi kita akan menyerahkannya kepada Robin, kerana saya pasti dia mempunyai banyak soalan. Robin?

Rebecca Jozwiak: Robin boleh menjadi bisu.

Dez Blanchfield: Anda mempunyai diri sendiri dengan bisu.

Robin Bloor: Ya, betul. Maaf, saya meredam diri saya. Apabila anda melaksanakannya, apakah prosesnya? Saya agak penasaran kerana boleh ada banyak data di banyak tempat. Jadi bagaimanakah kerja itu?

David Crawford: Ya, pasti. Kami masuk, pertama sekali ia merupakan proses IT untuk memastikan pelayan kami diperuntukkan, memastikan sambungan rangkaian tersedia, supaya pelabuhan dibuka supaya kita dapat mengakses sistem. Mereka semua sering tahu sistem mana yang mereka mahu bermula. Mengetahui di dalam sistem data, yang - dan kadang-kadang kita sebenarnya akan membantu mereka. Kami akan membantu mereka pergi melakukan penampilan awal pada log pertanyaan mereka untuk memahami siapa yang menggunakan apa dan berapa banyak pengguna yang mereka ada pada sistem. Jadi, kami akan membantu mengetahui di mana - mereka sering, jika mereka mempunyai beratus-ratus atau beribu-ribu orang yang mungkin masuk ke dalam pangkalan data, mereka sebenarnya tidak tahu di mana mereka log masuk, jadi kita boleh mengetahui dari log pertanyaan berapa banyak akaun pengguna yang unik yang sebenarnya anda log masuk dan melaksanakan pertanyaan di sini dalam sebulan atau lebih.

Jadi kita boleh mengambil kesempatan daripada itu, tetapi sering kali hanya pada yang paling penting. Kami membuat mereka ditubuhkan dan kemudian ada proses mengatakan, "Mari kita memberi keutamaan." Terdapat pelbagai aktiviti yang boleh berlaku secara selari. Saya akan fokus ke latihan untuk menggunakan alat pertanyaan. Sebaik sahaja orang mula menggunakan alat pertanyaan, pertama sekali, banyak orang menyukai hakikat bahawa ia hanya merupakan antara muka tunggal kepada semua sistem yang berbeza. Mereka juga menyukai hakikat bahawa ia berasaskan web, tidak melibatkan apa-apa pemasangan jika mereka tidak mahu. Dari segi keselamatan, mereka suka mempunyai semacam titik masuk tunggal, dari sudut rangkaian, antara jenis rangkaian IT dan pusat data di mana sumber data pengeluaran hidup. Dan, mereka akan menyediakan Alation sebagai alat pertanyaan dan mula menggunakan Compose sebagai titik akses untuk semua sistem ini.

Jadi, begitu yang berlaku, apa yang kami tumpukan dalam latihan, adalah memahami apa perbezaan antara alat carian berasaskan web atau alat pertanyaan berasaskan pelayan berbanding dengan yang ada pada desktop anda, dan beberapa nuansa menggunakan itu. Dan pada masa yang sama, apa yang akan kami lakukan ialah mengenal pasti data yang paling berharga, sekali lagi memanfaatkan maklumat log pertanyaan, dan berkata, "Hei, anda mungkin mahu masuk dan membantu orang memahami perkara ini. Mari kita mula menerbitkan pertanyaan perwakilan di atas meja-meja ini. "Kadang-kadang cara yang paling berkesan untuk cepat membuat orang berputar. Mari lihat sejarah pertanyaan anda sendiri, siarkan perkara ini supaya ia muncul sebagai pertanyaan pertama. Apabila orang melihat halaman jadual, mereka dapat melihat semua pertanyaan yang menyentuh jadual itu, dan mereka boleh bermula dari sana. Dan kemudian mari kita mulai menambah tajuk dan deskripsi ke objek ini supaya mereka lebih mudah untuk mencari dan mencari, supaya anda tahu beberapa nuansa cara menggunakannya.

Kami memastikan bahawa kami dapat melihat secara teliti log permintaan supaya kami dapat menjana garis keturunan. Salah satu perkara yang kita lakukan adalah kita melihat log pertanyaan pada bila-bila data bergerak dari satu jadual ke satu lagi, dan yang membolehkan kita meletakkan salah satu soalan yang paling sering ditanya mengenai jadual data adalah, dari mana asalnya? Bagaimana saya mempercayainya? Dan apa yang dapat kita tunjukkan tidak hanya jadual lain yang datang, tetapi bagaimana ia berubah sepanjang perjalanan. Sekali lagi, ini jenis yang dikuasakan oleh log pertanyaan.

Oleh itu, kami memastikan bahawa perkara-perkara itu ditubuhkan dan kami mendapat garis keturunan ke dalam sistem, dan kami menyasarkan bahagian-bahagian metadata yang paling bernilai dan paling tinggi yang dapat kami tentukan di halaman meja, supaya apabila anda mencari, anda mendapati sesuatu yang berguna.

Robin Bloor: Baiklah. Persoalan lain - ada banyak soalan dari penonton, jadi saya tidak mahu mengambil terlalu banyak masa di sini - soalan lain yang masuk ke fikiran adalah, hanya titik kesakitan. Banyak perisian yang dibeli kerana orang ramai, dalam satu cara atau yang lain, mengalami kesukaran dengan sesuatu. Jadi, apakah titik kesakitan biasa yang membawa orang ke Alation?

David Crawford: Ya. Saya fikir ada beberapa, tetapi saya fikir salah satu perkara yang sering kita dengar ialah onboarding penganalisis. "Saya perlu mengupah 10, 20, 30 orang dalam jangka terdekat yang akan menghasilkan wawasan baru dari data ini, bagaimana mereka akan bangun untuk mempercepatkan?" Oleh itu, juruanalisis onboarding adalah sesuatu yang kita pasti mengatasi. Terdapat juga melepaskan penganalisis kanan daripada menghabiskan masa mereka menjawab soalan daripada orang lain mengenai data. Itulah yang sangat kerap juga. Dan kedua-dua mereka pada asasnya masalah pendidikan.

Dan kemudian saya akan mengatakan tempat lain yang kita lihat orang yang mengadaptasi Alation adalah apabila mereka mahu menubuhkan persekitaran data baru bagi seseorang untuk bekerja. Mereka ingin mengiklankan dan memasarkannya secara dalaman untuk orang mengambil kesempatan. Kemudian membuat Alation bahagian depan ke persekitaran analitik baru sangat menarik. Ia mendapat dokumentasi, ia mendapat satu titik pengenalan kepada - satu titik akses kepada sistem, dan itu adalah tempat lain di mana orang akan datang kepada kami.

Robin Bloor: Baiklah, saya akan menghantar anda ke Rebecca kerana penonton cuba mendapatkan anda.

Rebecca Jozwiak: Ya, kita mempunyai banyak soalan penonton yang sangat baik di sini. Dan Daud, ini yang ditujukan kepada anda. Ia dari orang yang nampaknya mempunyai pengalaman dengan orang yang menyalahgunakan pertanyaan, dan dia semacam mengatakan bahawa semakin kita memberi kuasa pada pengguna, semakin sukar untuk mengawal penggunaan sumber pengiraan yang bertanggungjawab. Jadi bolehkah anda bertahan terhadap penyebaran frasa pertanyaan yang salah tetapi umum?

David Crawford: Ya, saya nampak soalan ini. Ia adalah satu soalan yang hebat - yang kita sering kerap. Saya telah melihat kesakitan saya di syarikat-syarikat terdahulu, di mana anda perlu melatih pengguna. Sebagai contoh, "Ini adalah jadual log, ia mendapat log kembali selama bertahun-tahun. Jika anda akan menulis pertanyaan di atas meja ini, anda benar-benar perlu mengehadkan mengikut tarikh. "Jadi, contohnya, itu latihan yang saya lalui di syarikat sebelum saya diberi akses ke pangkalan data.

Kami mempunyai beberapa cara yang kita cuba untuk menangani ini. Saya akan mengatakan bahawa saya fikir data log pertanyaan benar-benar unik untuk mengatasinya. Ia memberikan wawasan yang lain berbanding apa pangkalan data itu secara dalaman dengan perancang pertanyaannya. Dan apa yang kita lakukan adalah salah satu daripada intervensi ini - kita mempunyai campur tangan manual yang saya tunjukkan, dan itu berguna, kan? Oleh itu, dalam satu gabungan tertentu, anda boleh berkata, "Mari kita menolak ini." Ia akan mempunyai bendera merah besar apabila ia muncul dalam saran pintar. Jadi itulah satu cara untuk cuba mendapatkan orang.

Satu lagi perkara yang kita lakukan ialah, automatik pada campur tangan pelaksanaan masa. Itu sebenarnya akan menggunakan pokok parse pertanyaan sebelum kita menjalankannya untuk melihat, adakah ia termasuk penapis tertentu atau beberapa perkara lain yang kita lakukan di sana juga. Tetapi salah satu yang paling berharga dan yang paling mudah dijelaskan adalah, adakah ia termasuk penapis? Jadi seperti contoh yang saya berikan, jadual log ini, jika anda akan membuat pertanyaan, harus mempunyai julat tarikh, anda boleh menentukan di halaman jadual di sana bahawa anda mengehendaki bahawa penapis julat tarikh hendak digunakan. Sekiranya seseorang cuba menjalankan pertanyaan yang tidak termasuk penapis itu, ia akan menghalangnya dengan amaran yang besar, dan ia akan berkata, "Anda sepatutnya menambah beberapa SQL yang kelihatan seperti ini pada pertanyaan anda." Mereka boleh meneruskan jika mereka mahu. Kami tidak akan benar-benar mengharamkan mereka untuk menggunakannya - ia adalah pertanyaan juga, ia perlu, pada akhir hari, menjalankan pertanyaan. Tetapi kami meletakkan penghalang yang cukup besar di hadapan mereka dan kami memberi mereka cadangan, cadangan konkrit yang digunapakai untuk mengubah suai pertanyaan untuk meningkatkan prestasi mereka.

Kami sebenarnya juga melakukannya secara automatik dalam beberapa kes, sekali lagi dengan memerhatikan log pertanyaan. Jika kita lihat bahawa beberapa peratusan pertanyaan yang sangat besar di atas meja ini mengambil kesempatan daripada penapis tertentu atau klausa gabungan tertentu, maka kita akan benar-benar memunculkannya. Kami akan mempromosikannya untuk campur tangan. Sebenarnya, ia berlaku kepada saya pada set data dalaman. Kami mempunyai data pelanggan dan kami mempunyai ID pengguna, tetapi ID pengguna ditetapkan, kerana ia jenis - kami mempunyai ID pengguna pada setiap pelanggan. Ia bukan unik, jadi anda perlu memasangkannya dengan ID pelanggan untuk mendapatkan kunci gabungan unik. Dan saya menulis pertanyaan dan saya cuba menganalisis sesuatu dan ia muncul dan berkata, "Hei, orang lain sepertinya menyertai jadual ini dengan kedua-dua ID pelanggan dan ID pengguna. Adakah anda pasti anda tidak mahu berbuat demikian? "Dan ia sebenarnya menghalang saya daripada membuat beberapa analisis yang salah. Jadi ia berfungsi untuk kedua-dua ketepatan analisis serta prestasi. Jadi itulah bagaimana kami mengambil masalah itu.

Rebecca Jozwiak: Ini sepertinya saya berkesan. Anda berkata anda tidak semestinya menghalang orang daripada memonopoli sumber, tetapi semacam mengajar mereka bahawa apa yang mereka lakukan mungkin bukan yang terbaik, bukan?

David Crawford: Kami selalu menganggap bahawa pengguna tidak berniat jahat - memberi mereka niat yang terbaik - dan kami cuba untuk menjadi sangat terbuka dengan cara itu.

Rebecca Jozwiak: Okay. Berikut adalah soalan lain: "Apakah perbezaan antara pengurus katalog, seperti penyelesaian anda, dan alat MDM? Atau adakah ia benar-benar bergantung kepada prinsipal lain dengan meluaskan pilihan jadual pertanyaan, sedangkan MDM akan melakukannya secara automatik, tetapi dengan prinsipal pendasar yang sama mengumpul metadata. "

David Crawford: Ya, saya fikir apabila saya melihat penyelesaian MDM tradisional, perbezaan utama adalah falsafah. Ini semua tentang siapa pengguna itu. Seperti yang saya katakan pada permulaan pembentangan saya, Alation, saya fikir, apabila kita diasaskan, kita diasaskan dengan tujuan untuk membolehkan para penganalisis menghasilkan lebih banyak pandangan, untuk menghasilkannya dengan lebih cepat, supaya lebih tepat dalam pandangan bahawa mereka menghasilkan. Saya tidak fikir ia telah menjadi matlamat penyelesaian MDM tradisional. Penyelesaian itu cenderung untuk disasarkan kepada orang yang perlu menghasilkan laporan mengenai data yang telah ditangkap kepada SCC atau secara dalaman untuk tujuan pengauditan lain. Ia kadang-kadang membolehkan penganalisis, tetapi lebih sering, jika ia akan membolehkan seorang pengamal dalam kerja mereka, ia lebih mungkin untuk membolehkan arkitek data seperti DBA.

Apabila anda berfikir tentang perkara-perkara dari sudut penganalisis, itulah apabila anda mula membina alatan pertanyaan yang alat MDM tidak akan pernah dilakukan. Itulah apabila anda mula berfikir tentang prestasi serta ketepatan, serta memahami data yang berkaitan dengan keperluan perniagaan saya. Kesemua perkara itu adalah perkara yang semacam pop dalam fikiran kita ketika kita merancang alat itu. Ia masuk ke dalam algoritma carian kami, ia masuk ke dalam susun atur halaman katalog dan keupayaan untuk menyumbang pengetahuan dari seluruh organisasi. Ia masuk ke dalam fakta bahawa kami membina alat pertanyaan dan bahawa kami membina katalog terus ke dalamnya, jadi saya fikir ia benar-benar berasal dari itu. Pengguna apa yang anda fikirkan dahulu?

Rebecca Jozwiak: Baiklah, baiklah. Itu benar-benar membantu menjelaskannya. yang mati untuk mendapatkan arkib kerana dia terpaksa pergi, tetapi dia benar-benar mahu menjawab soalannya. Dia berkata ia telah disebutkan pada mulanya bahawa terdapat banyak bahasa, tetapi adalah satu-satunya bahasa yang dimiliki SQL dalam komponen Compose?

David Crawford: Ya, betul. Dan salah satu daripada perkara yang saya perhatikan, kerana saya menyaksikan letupan pelbagai jenis pangkalan data, pangkalan data dokumen, pangkalan grafik, kedai-kedai nilai utama, adalah benar-benar kuat untuk perkembangan aplikasi. Mereka boleh melayani keperluan tertentu di sana dengan baik, dengan cara yang lebih baik daripada pangkalan data relasi.

Tetapi apabila anda membawanya kembali ke analisis data, apabila anda membawanya balik ke - apabila anda ingin memberikan maklumat itu kepada orang yang akan melakukan pelaporan ad hoc atau ad hoc menggali data, bahawa mereka sentiasa kembali kepada hubungan, sekurang-kurangnya, antara muka untuk manusia. Sebahagian daripada itu hanya kerana SQL adalah lingua franca analisis data, oleh itu bermakna, bagi manusia, itu juga untuk alat yang mengintegrasikan. Saya fikir ini adalah alasan bahawa SQL pada Hadoop begitu popular dan terdapat begitu banyak percubaan untuk menyelesaikannya, kerana pada akhir hari, itulah yang diketahui orang. Mungkin ada berjuta-juta orang yang tahu bagaimana menulis SQL, dan saya tidak akan berani berjuta-juta orang yang tahu bagaimana menulis pertanyaan kerangka saluran pengumpulan Mongo. Dan bahawa ia adalah bahasa standard yang digunakan untuk integrasi merentasi pelbagai platform yang sangat luas. Jadi apa yang dikatakannya, kami jarang diminta untuk keluar kerana ia adalah antara muka yang digunakan oleh kebanyakan penganalisis, dan ia adalah tempat kami menumpukan perhatian, terutamanya dalam Compose, bahawa kami memberi tumpuan kepada menulis SQL.

Saya akan mengatakan sains data adalah tempat di mana mereka bekerja di luar yang paling, dan oleh itu kita mendapat soalan sekali tentang menggunakan Pig atau SAS. Ini adalah perkara-perkara yang kami tidak pernah mengendalikan di Compose, dan kami ingin menangkap dalam katalog itu. Dan saya juga melihat R dan Python. Kami mempunyai beberapa cara yang kami buat antara muka yang anda boleh gunakan pertanyaan yang ditulis dalam Alation di dalam skrip R dan Python, jadi, sejak sering ketika anda seorang saintis data dan anda bekerja dalam bahasa skrip, data sumber dalam pangkalan data relasi. Anda bermula dengan pertanyaan SQL dan kemudian anda memprosesnya lagi dan membuat graf di dalam R dan Python. Dan kami telah membuat pakej yang anda boleh mengimport skrip yang menarik pertanyaan atau hasil pertanyaan daripada Alation supaya anda boleh mempunyai alur kerja campuran di sana.

Rebecca Jozwiak: Baiklah, hebat. Saya tahu kami telah berlari sedikit di atas jam, saya hanya akan bertanya satu atau dua lagi soalan. Saya tahu anda bercakap tentang semua sistem yang berbeza yang boleh anda sambungkan, tetapi sejauh data yang dihoskan secara luaran dan data yang dihoskan secara dalaman, bolehkah bersama-sama dicari ke dalam pandangan tunggal anda, ke dalam satu platform anda?

David Crawford: Pasti. Ada beberapa cara untuk melakukannya. Maksud saya, yang dianjurkan secara luaran, saya bayangkan, saya cuba memikirkan apa yang mungkin maksudnya. Ia boleh bermakna pangkalan data bahawa seseorang menjadi tuan rumah di AWS untuk anda. Ini boleh bermakna sumber data awam dari data.gov. Kami menyambung terus ke pangkalan data dengan melog masuk seperti aplikasi lain dengan, dengan akaun pangkalan data, dan itulah cara kami mengekstrak metadata tersebut. Jadi jika kita mempunyai akaun dan kita mempunyai pelabuhan rangkaian yang terbuka, kita boleh mendapatkannya. Dan apabila kita tidak mempunyai perkara itu, kita mempunyai sesuatu yang dipanggil sumber data maya, yang membolehkan anda pada dasarnya untuk mendorong dokumentasi, sama ada secara automatik, dengan menulis penyambung sendiri atau dengan mengisinya dengan melakukan seperti muat naik CSV, untuk mendokumen data bersama data dalaman anda. Yang mendapat semua diletakkan dalam enjin carian. Ia menjadi rujukan dalam artikel dan dokumentasi dan perbualan lain di dalam sistem. Jadi itulah cara kita mengendalikan apabila kita tidak boleh terus menyambung ke sistem.

Rebecca Jozwiak: Okay, itu masuk akal. Saya akan menembak satu lagi pertanyaan kepada anda. Seorang peserta adalah bertanya, "Bagaimana kandungan katalog katalog disahkan, disahkan atau dikekalkan, sebagai data sumber diperbaharui, sebagai data sumber diubah, dan lain-lain"

David Crawford: Ya, itu satu soalan yang kita mendapat banyak, dan saya fikir salah satu perkara yang kita - salah satu falsafah kita, seperti yang saya katakan, kita tidak percaya pengguna berniat jahat. Kami mengandaikan bahawa mereka cuba menyumbang pengetahuan terbaik. Mereka tidak akan masuk dan sengaja mengelirukan orang tentang data. Jika itu masalah di organisasi anda, mungkin Alation bukan alat yang sesuai untuk anda. Tetapi jika anda menganggap niat baik oleh pengguna, maka, kita memikirkannya sebagai sesuatu di mana, kemas kini masuk, dan biasanya biasanya apa yang kita lakukan ialah kita meletakkan pelayan yang bertanggungjawab bagi setiap objek data atau setiap bahagian data. Dan kita boleh memberitahu mereka pelayan apabila perubahan kepada metadata dibuat dan mereka boleh mengendalikannya dengan cara itu. Mereka melihat kemas kini masuk, mereka mengesahkan mereka. Jika mereka tidak betul, mereka boleh kembali dan mengubah suai mereka dan memaklumkan, dan diharapkan dapat menjangkau pengguna yang menyumbang maklumat tersebut dan membantu mereka belajar.

Jadi itulah cara utama yang kita fikirkan untuk melakukannya. Cadangan semacam ini oleh orang ramai dan pengurusan oleh pelayan, jadi kami mempunyai beberapa keupayaan di sekelilingnya.

Rebecca Jozwiak: Baiklah, baiklah. Dan jika anda hanya boleh membiarkan orang tahu bagaimana mereka boleh bermula dengan Alation, dan di mana mereka boleh pergi secara khusus untuk mendapatkan maklumat lanjut. Saya tahu anda berkongsi satu bit.ly. Adakah itu tempat terbaik?

David Crawford: Alation.com/learnmore Saya rasa cara yang baik untuk pergi. Untuk pergi mendaftar untuk demo tapak Alation.com mempunyai banyak sumber yang hebat, kertas putih pelanggan, dan berita mengenai penyelesaian kami. Jadi saya fikir itu tempat yang bagus untuk bermula. Anda juga boleh menghantar e-mel.

Rebecca Jozwiak: Baiklah, hebat. Dan saya tahu, peserta, maaf jika saya tidak dapat menjawab semua soalan hari ini, tetapi jika tidak, mereka akan dihantar kepada David atau pasukan jualannya atau seseorang di Alation, jadi mereka pasti dapat menjawab pertanyaan anda dan membantu memahami apa yang dilakukan Alation atau apa yang mereka lakukan dengan lebih baik.

Dan dengan itu, saya akan pergi dan menandatangani kami. Anda sentiasa boleh mencari arkib di InsideAnalysis.com. Anda juga boleh menemuinya di Techopedia.com. Mereka cenderung untuk mengemaskini sedikit lebih cepat, jadi semestinya periksa itu. Dan terima kasih banyak kepada David Crawford, Dez Blanchfield dan Robin Boor hari ini. Sudah menjadi webcast yang hebat. Dan dengan itu, saya akan membida anda selamat tinggal. Terima kasih, orang ramai. Selamat tinggal.

David Crawford: Terima kasih.

Kuasa cadangan: bagaimana katalog data memberdayakan penganalisis