Rumah Perniagaan Asas data yang besar: bagaimana untuk membina satu rancangan tadbir urus data

Asas data yang besar: bagaimana untuk membina satu rancangan tadbir urus data

Video: Tadbir Urus Baik Gagal (November 2024)

Video: Tadbir Urus Baik Gagal (November 2024)
Anonim

Kami telah banyak menulis tentang peranan data dalam perniagaan moden. Dari permulaan dan perniagaan kecil hingga menengah (SMB) kepada perusahaan besar, wawasan dan analisis data lebih mudah dicapai dengan perniagaan dari semua saiz berbanding sebelumnya. Ini sebahagiannya berkat peningkatan kecerdasan perniagaan layan diri (BI) dan alat visualisasi data.

Walaupun, sebelum anda dapat menggunakan alat BI atau menjalankan analitik ramalan pada set data, terdapat banyak faktor yang dapat dikurangkan. Ia bermula dengan hanya memahami apa yang Big Data adalah, apa yang tidak (petunjuk: bukan bola kristal), dan bagaimana untuk mengurus storan data, organisasi, kebenaran dan keselamatan dalam arsitektur data perusahaan anda. Inilah di mana tadbir urus data masuk. Proses-proses di mana anda memastikan tadbir urus dalam perusahaan berbeza bergantung kepada siapa yang anda bercakap. Namun, pada dasarnya, tadbir urus data adalah tentang amanah dan kebertanggungjawaban data, berkahwin dengan amalan terbaik keselamatan data yang komprehensif.

Saya bercakap dengan Hortonworks dan MapR, dua daripada vendor Hadoop perusahaan terbesar di pasaran. Scott Gnau, Ketua Pegawai Teknologi di Hortonworks, dan Jack Norris, Naib Presiden Kanan Data dan Aplikasi di MapR, masing-masing menerangkan apa arti pentadbiran data kepada organisasi mereka. Mereka membincangkan bagaimana untuk menangani cabaran kompleks untuk memastikan tadbir urus data dalam arsitektur data kompleks dan hierarki organisasi perusahaan besar.

Apa yang Tepat Tadbir Urus Data dan Mengapa Kita Perlu?

Tadbir Urus bermakna memastikan data perusahaan diberi kuasa, teratur, dan dibenarkan dalam pangkalan data dengan sedikit kesilapan, sambil mengekalkan privasi dan keselamatan. Ia bukan keseimbangan mudah untuk menyerang, terutamanya apabila realiti di mana dan bagaimana data ditempatkan dan diproses sentiasa berubah. MapR's Norris menjelaskan mengapa perniagaan perlu melihat tadbir urus data dari tahap yang lebih tinggi dan memberi tumpuan kepada saluran paip data yang lebih besar pada permainan.

"Apabila anda memulakan skala dan halaju Data Big yang kita hadapi, anda perlu mempunyai tadbir urus data tetapi dalam konteks yang lebih luas ini. Apakah data yang anda ada, yang mempunyai akses kepadanya, dan bagaimana anda mengurus keturunan data itu dari masa ke masa? " kata Norris. "Dari sudut tadbir urus data, anda boleh mempunyai tahap yang berlainan dalam data yang wujud dalam sistem yang boleh dijangkiti supaya anda boleh kembali pada bila-bila masa dalam saluran paip. Ini mengenai membina kebolehdapatan dan kawalan akses ke dalam platform data untuk membuat penemuan data dan analitik pasti telus, sama ada anda seorang pengurus perniagaan yang melihat set data kewangan atau saintis data yang bekerja dengan data hulu mentah."

Sumber: Rimes. Klik imej untuk paparan penuh.

Hortonworks 'Gnau berpaut pada titik yang sama. Sama ada anda berurusan dengan gudang data atau arkitek tasik data, tadbir urus data adalah mengenai mengimbangi kuasa lawan. Ini mengenai akses data yang tidak terkawal untuk memacu inovasi dan memperoleh pandangan, dan keizinan dan privasi butiran untuk melindungi data tersebut secara serentak.

"Bandingkan dan kontras dunia lama tadbir urus tradisional dalam ruang data, ianya sedikit lebih mudah, " kata Gnau. "Data yang digunakan untuk ditakrifkan dengan baik oleh peranan kerja atau aplikasi. Di dunia baru, anda mendapat nilai paling apabila saintis data mempunyai akses kepada sebanyak mungkin data, dan mendapati bahawa medium gembira adalah sangat penting.

"Ia memacu paradigma baru dalam bagaimana anda perlu mendekati tadbir, " tambah Gnau. "Di dunia baru ini, saya menganggap topik tadbir urus dan keselamatan yang perlu dibincangkan bersama. Banyak syarikat masih bergelut untuk meneruskannya untuk membolehkan para saintis data mereka berkesan dalam mencari kes-kes penggunaan baru semasa, pada masa yang sama, memahami bagaimana mengendalikan keselamatan, privasi, tadbir urus-semua perkara yang penting dari perspektif garis bawah dan juga dari perspektif reputasi syarikat."

Bagaimanakah pelan tadbir urus data perusahaan sepatutnya merangkumi dan memenuhi semua pasukan yang bertentangan? Dengan mengatasi setiap keperluan secara metrik, satu langkah pada satu masa.

Bagaimana Membina Pelan Tadbir Urus Data

Hortonworks, MapR, dan Cloudera adalah tiga pemain bebas terbesar di ruang Hadoop. Syarikat-syarikat mempunyai pengaruh tersendiri apabila ia berkaitan dengan tadbir urus data. MapR telah mengeluarkan beberapa kertas putih mengenai subjek dan membina tadbir urus data di seluruh Platform Data Convergednya, sementara Hortonworks mempunyai penyelesaian keselamatan dan pentadbiran datanya sendiri dan mengasaskan Inisiatif Tadbir Urus Data (DGI) pada tahun 2015. Ini membawa kepada terbuka -Sumber projek Apache Atlas yang menyediakan rangka kerja tadbir urus data terbuka untuk Hadoop.

Namun, apabila setiap vendor mengendalikan strategi tadbir urus dan strategi keselamatan yang komprehensif, Gnau dan Norris bercakap bersama-sama. Berikut adalah langkah gabungan yang Hortonworks dan MapR mengesyorkan perniagaan yang perlu diingat semasa membina satu rancangan tadbir urus data.

The Big One: Access Data Granular and Authorization

Kedua-dua syarikat bersetuju bahawa anda tidak boleh mempunyai tadbir urus data yang berkesan tanpa kawalan granular. MapR menyelesaikan ini terutamanya melalui Expression Control Accessions (ACEs). Seperti yang dijelaskan Norris, ACE menggunakan kumpulan dan logik Boolean untuk mengawal akses dan kebenaran data yang fleksibel, dengan keizinan berasaskan peranan dan tetapan keterlihatan.

Dia berkata untuk memikirkannya seperti model Gartner. Pada paksi Y di hujung bawah ialah tadbir ketat dan ketangkasan rendah, dan pada paksi X di hujung atas adalah ketangkasan yang lebih tinggi dan kurang tadbir urus.

"Pada tahap yang rendah, anda melindungi data sensitif dengan menghalangnya. Di bahagian atas, anda mendapat kontrak sulit untuk para saintis data dan penganalisis BI, " kata Norris. "Kami cenderung untuk melakukan ini dengan keupayaan masking dan pandangan yang berbeza di mana anda mengunci data mentah di bahagian bawah sebanyak mungkin dan secara beransur-ansur memberikan lebih banyak akses sehingga, di bahagian atas, anda memberikan penglihatan yang lebih luas kepada pentadbir. akses kepada orang yang betul?

"Jika anda melihat senarai kawalan akses hari ini, ia akan mengatakan sesuatu seperti 'semua orang dalam bidang kejuruteraan boleh mengaksesnya, '" tambah Norris. "Tetapi jika anda mahu beberapa pengarah terpilih dalam projek dalam IT untuk mempunyai akses atau semua orang kecuali orang, anda perlu membuat kumpulan khas. Ini adalah cara yang terlalu rumit dan rumit untuk melihat akses."

Di sinilah pemberian hak akses ke tahap dan kumpulan yang berbeza datang, menurut Norris. "Kami telah menggabungkan ACE dengan pelbagai cara anda boleh mengakses data-melalui fail, jadual, aliran, dan lain-lain-dan melaksanakan pandangan tanpa salinan data yang berasingan. Jadi kami menyediakan Pandangan pada data mentah yang sama dan Pandangan boleh mempunyai tahap akses yang berbeza, ini memberikan anda keselamatan yang lebih bersepadu yang lebih langsung."

Hortonworks mengendalikan akses berbutir dengan cara yang sama. Dengan mengintegrasikan Apache Atlas untuk tadbir urus dan Apache Ranger, Gnau berkata syarikat itu mengendalikan kebenaran di peringkat perusahaan menerusi satu panel kaca. Kuncinya, katanya, adalah keupayaan untuk memberi akses secara konteks kepada pangkalan data dan pada tag metadata khusus dengan menggunakan dasar berasaskan tag.

"Apabila seseorang berada dalam pangkalan data, ia membimbing mereka melalui data yang mereka harus mempunyai akses yang relevan, " kata Gnau. "Dasar keselamatan Ranger di peringkat objek, halus, dan di mana-mana di antara boleh mengendalikannya. Mengikatkan keamanan itu ke dalam tadbir urus adalah di mana keadaan menjadi sangat menarik.

"Untuk skala di organisasi besar, anda perlu menyatukan peranan tersebut dengan penandaan tadbir urus dan metadata, " tambah Gnau. "Sekiranya saya masuk dari Singapura, mungkin terdapat peraturan yang berbeza berdasarkan undang-undang privasi atau strategi korporat tempatan. Apabila sebuah syarikat mentakrifkan, menetapkan, dan memahami peraturan tersebut dari perspektif ke atas secara holistik, anda boleh mengakses seksyen berdasarkan menetapkan peraturan tertentu semasa melaksanakan segala-galanya di dalam platform teras."

Sumber: Hub Big Data & Analytics IBM. Klik imej untuk paparan penuh.

2. Keselamatan Perimeter, Perlindungan Data, dan Pengesahan Bersepadu

Tadbir urus tidak berlaku tanpa keselamatan endpoint. Gnau berkata adalah penting untuk membina perimeter dan firewall yang baik di sekitar data yang terintegrasi dengan sistem dan piawaian pengesahan sedia ada. Norris bersetuju bahawa, apabila ia berkaitan dengan pengesahan, adalah penting bagi syarikat untuk menyelaraskan sistem yang diuji dan diuji.

"Di bawah pengesahan, ini mengenai bagaimana anda mengintegrasikan dengan perkhidmatan direktori LDAP, Active Directory, dan perkhidmatan pihak ketiga, " kata Norris. "Kami juga menyokong nama pengguna dan kata laluan Kerberos. Yang penting adalah untuk tidak mewujudkan keseluruhan infrastruktur yang berasingan, tetapi bagaimana anda menyatukan struktur dan sistem leverage yang ada seperti Kerberos."

3. Penyulitan Data dan Tokenisasi

Langkah seterusnya selepas menjamin perimeter anda dan mengesahkan semua akses data butiran yang anda berikan: Pastikan fail dan maklumat peribadi yang dikenal pasti (PII) dienkripsi dan tokenized dari hujung ke hujung melalui saluran data anda. Gnau membincangkan bagaimana Hortonworks menjamin data PII.

"Sebaik sahaja anda melewati perimeter dan mempunyai akses kepada sistem, dapat melindungi data PII sangat penting, " kata Gnau. "Anda perlu menyulitkan dan memberi data itu jadi, tanpa mengira siapa yang mempunyai akses kepadanya, mereka boleh menjalankan analisis yang mereka perlukan tanpa mendedahkan mana-mana data PII di sepanjang baris."

Mengenai bagaimana anda mengakses data yang disulitkan dengan selamat dalam gerakan dan berehat, Norris MapR menjelaskan bahawa penting untuk sentiasa ingat menggunakan kes seperti backup dan pemulihan bencana (DR). Beliau membincangkan satu konsep yang dipanggil julat logik yang dipanggil MapR, yang boleh mengaplikasikan dasar tadbir urus kepada kumpulan fail dan direktori yang semakin meningkat.

"Pada tahap yang paling rendah, MapR telah mengarahkan replikasi WAN untuk DR, dan snapshots masa yang konsisten merentasi semua data yang boleh ditubuhkan pada frekuensi yang berbeza oleh direktori atau jumlah, " kata Norris. "Ia lebih luas daripada hanya tadbir urus data.Anda boleh mempunyai kluster fizikal dengan direktori, dan kemudian konsep kelantangan logik adalah unit pengurusan yang sangat menarik dan cara untuk mengumpulkan perkara semasa mengawal untuk perlindungan data dan kekerapan.Ini anak panah lain dalam data admin IT tadbir urus."

4. Pengauditan berterusan dan Analisis

Melihat gambaran tadbir urus yang lebih luas, kedua Hortonworks dan MapR berkata strategi itu tidak berfungsi tanpa pengauditan. Tahap kebolehmampuan dan kebertanggungjawaban ke dalam setiap langkah proses adalah apa yang membolehkan IT benar-benar "mentadbir" data berbanding dengan hanya menetapkan dasar dan kawalan akses dan berharap yang terbaik. Ia juga bagaimana perusahaan boleh mengekalkan strategi mereka semasa dalam persekitaran di mana kita melihat data dan teknologi yang kita gunakan untuk mengurus dan menganalisisnya berubah setiap hari.

"Strategi tadbir urus moden adalah pembalakan dan pengesanan, " kata Gnau. "Kami berada di peringkat awal Big Data dan IoT, dan penting untuk dapat mengesan akses dan mengenal pasti corak dalam data supaya, oleh kerana strategi perlu dikemas kini, kami mendahului kurva."

Norris berkata pengauditan dan analisis boleh semudah mengesan fail JavaScript Objects (JSON). Bukan setiap data akan menjejaki dan menganalisis tetapi perniagaan anda tidak akan tahu yang mana-sehingga anda mengenal pasti wawasan yang mengubah permainan atau krisis yang berlaku dan anda perlu menjalankan jejak audit.

"Setiap fail log JSON dibuka untuk analisis dan kami mempunyai Apache Drill untuk menanyakan fail JSON dengan skema, jadi itu bukan langkah IT manual untuk menyediakan analisis metadata, " kata Norris. "Apabila anda memasukkan semua peristiwa akses data dan setiap tindakan pentadbiran, terdapat pelbagai analitik yang mungkin."

5. Senibina Data Bersepadu

Pada akhirnya, pegawai teknologi atau pentadbir IT yang mengawasi strategi tadbir urus data enterprise harus memikirkan tentang spesifik akses, pengesahan, keselamatan, penyulitan, dan pengauditan. Tetapi pegawai teknologi atau pentadbir IT tidak boleh berhenti di sana; Sebaliknya, orang itu juga perlu berfikir tentang bagaimana setiap komponen ini memakan arsitektur data yang lebih besar. Dia juga perlu memikirkan bagaimana infrastruktur itu perlu berskala dan selamat-dari pengumpulan data dan penyimpanan sepanjang jalan ke BI, analisis, dan perkhidmatan pihak ketiga. Gnau berkata tadbir urus data adalah sama banyak mengenai pemikiran semula strategi dan pelaksanaan kerana ia berkaitan dengan teknologi itu sendiri.

" Ia melampaui satu panel kaca atau koleksi peraturan keselamatan, " kata Gnau. "Ini adalah seni bina tunggal di mana anda mencipta peranan ini dan mereka menyelaraskan seluruh platform dan semua alat yang anda bawa ke dalamnya. Keindahan infrastruktur yang dikawal dengan baik adalah ketangkasan yang menggunakan kaedah baru. persekitaran awan hibrid, anda mempunyai rujukan tunggal untuk memahami bagaimana anda telah melaksanakan peraturan anda. Semua data melewati lapisan keselamatan dan tadbir urus ini."

Asas data yang besar: bagaimana untuk membina satu rancangan tadbir urus data