Isi kandungan:
Video: Sistem Pangkalan Data 1 (November 2024)
Data dan risikan perniagaan (BI) adalah dua sisi duit syiling yang sama. Kemajuan dalam penyimpanan, pemprosesan, dan analisis telah mendokumenkan data ke titik di mana anda tidak perlu menjadi pakar pangkalan data atau data saintis untuk bekerja dengan set data besar-besaran dan memperoleh pandangan. Masih terdapat keluk pembelajaran, tetapi BI layan diri dan alat visualisasi data mendefinisikan semula cara perniagaan memanfaatkan semua data yang mereka kumpulkan ke dalam analitik yang boleh dilakukan. Walau bagaimanapun, terdapat perbezaan di antara syarikat BI atau pangkalan data yang menganjurkan analisis lanjutan dan pangkalan data kecerdasan tiruan (AI) yang dibina untuk latihan mesin pembelajaran (ML) dan model pembelajaran mendalam.
Algoritma ML ditenun ke dalam fabrik kebanyakan perisian hari ini. Pengalaman pengguna sedang melonggarkan AI melalui pembantu maya dan, dalam perisian perniagaan, terdapat contoh-contoh seperti Salesforce Einstein yang bertindak sebagai lapisan pintar di bawah portfolio pengurusan hubungan pelanggan (CRM) keseluruhan syarikat. Gergasi teknologi, termasuk Google dan Microsoft, mendorong masa depan pintar kita lebih jauh, bukan sahaja dengan penyelidikan tetapi dengan menulis semula bagaimana teknologi mereka berfungsi dari awal dengan AI.
Salah satu cabaran dengan mesin latihan dan model pembelajaran mendalam adalah jumlah data dan kekuatan pemprosesan yang anda perlukan untuk melatih rangkaian saraf, sebagai contoh, pengenalan corak kompleks dalam bidang seperti klasifikasi imej atau pemprosesan bahasa semula jadi (NLP). Oleh itu, pangkalan data AI mula muncul di pasaran sebagai cara untuk mengoptimumkan proses belajar dan latihan AI untuk perniagaan. Kami bercakap dengan penyedia pangkalan data relasi dipercepat GPU Kinetica, yang telah membina pangkalan data AI sendiri, dan BI pemastautin PCMag dan pakar pangkalan data Pam Baker untuk menafsirkan apa yang pangkalan data AI dan bagaimana ia bekerja berbanding pangkalan data tradisional. Lebih penting lagi, kami meminta bantuan mereka untuk mengurutkan berita gembira dan pemasaran untuk menentukan sama ada teknologi baru ini mempunyai nilai perniagaan yang sebenar atau tidak.
Apakah Pangkalan Data AI?
Sifat berubah dari ruang AI dapat membuat kesulitan untuk menetapkan istilah. Anda sering mendengar istilah seperti ML, pembelajaran mendalam, dan AI digunakan secara bergantian ketika, pada hakikatnya, mereka masih mengembangkan teknik di bawah payung AI yang lebih besar. Oleh itu, Baker berkata terdapat dua definisi yang sangat berbeza tentang pangkalan data AI yang bergantung kepada siapa yang anda bercakap dengan: satu praktikal dan yang lain yang lebih pie-in-the-sky.
"Terdapat satu persetujuan yang longgar dalam industri bahawa pangkalan data AI akan menjadi salah satu yang akan berfungsi sepenuhnya dari pertanyaan bahasa semulajadi. Antara muka pengguna akan menjadi seperti yang anda tidak perlu bergantung pada istilah carian dan frasa utama untuk mencari maklumat yang anda perlukan, membolehkan pengguna memanggil set data dengan NLP, "kata Baker. "Anda boleh membuat hujah yang sangat terhad bahawa IBM Watson boleh menimbulkan pertanyaan bahasa semulajadi kepada sistem, tetapi anda perlu dihubungkan dengan data dan memilih data itu sendiri. Jadi, sekarang, takrifan itu adalah regangan."
Takrif yang lebih praktikal, dan subjek penjelasan ini, pada asasnya menggunakan pangkalan data yang dibina untuk mempercepatkan latihan model ML. Beberapa syarikat berteknologi telah membangunkan cip AI yang berdedikasi untuk mengurangkan beban pemprosesan berat dalam produk perkakasan baru kerana vendor mengeluarkan lebih banyak ciri berasaskan AI yang memerlukan kuasa pengiraan yang ketara. Di sisi data, menggunakan pangkalan data AI dapat membantu anda mempertahankan kelantangan, halaju, dan cabaran data tadbir urus dan pengurusan kompleks yang berkaitan dengan latihan ML dan model pembelajaran mendalam untuk menjimatkan masa dan mengoptimumkan sumber.
Kredit gambar: Todd Jaquith di Futurism.com. Klik untuk mengembangkan infographic penuh
"Buat masa ini terdapat banyak usaha untuk mempercepat latihan ML melalui beberapa taktik yang berbeza, " jelas Baker. "Satu ialah untuk memisahkan infrastruktur dari penyelidik AI yang melakukan pengkodan, supaya fungsi automatik menangani infrastruktur dan melatih model ML. Jadi, bukannya menghabiskan masa seperti tiga bulan, anda mungkin melihat 30 hari atau 30 minit."
Kinetica memecah idea itu ke dalam platform pangkalan data bersepadu yang dioptimumkan untuk ML dan pemodelan pembelajaran mendalam. Pangkalan data AI menggabungkan pergudangan data, analisis lanjutan, dan visualisasi dalam pangkalan data dalam memori. Naib Presiden dan Jurutera Perisian Utama, Mate Radalj, Advanced Technology Group, menjelaskan bahawa pangkalan data AI dapat dapat menelan, menjelajah, menganalisa, dan memvisualisasikan data yang bergerak pantas dan kompleks dalam milisaat. Matlamatnya adalah untuk mengurangkan kos, menjana pendapatan baru, dan mengintegrasikan model ML supaya perniagaan boleh membuat keputusan yang lebih efisien, berasaskan data.
"Pangkalan data AI adalah subset pangkalan data umum, " kata Radalj. "Pada masa ini, pangkalan data AI sangat popular, tetapi banyak penyelesaian menggunakan komponen yang diedarkan. Spark, MapReduce dan HDFS sentiasa berputar mundur dan bukannya dalam ingatan. Mereka tidak mempunyai persoalan faktor seperti pangkalan data kami, yang dibina dari bawah dengan CPU dan GPU yang bersepadu secara bersepadu di platform tunggal. Manfaat peringkat tinggi bagi kami adalah peruntukan yang lebih cepat dan jejak perkakasan yang lebih rendah dalam latihan berasaskan model, dengan pemulihan dan analisis cepat yang disatukan ke dalam platform yang sama."
Bagaimana Pangkalan Data AI berfungsi
Terdapat beberapa contoh pangkalan data AI dalam amalan. Microsoft Batch AI menawarkan infrastruktur berasaskan awan untuk latihan pembelajaran mendalam dan model ML yang dijalankan pada Microsoft Azure GPUs. Syarikat ini juga mempunyai produk Azure Data Lake untuk memudahkan para saintis perniagaan dan data memproses dan menganalisis data merentas arsitektur yang diedarkan.
Satu lagi contoh ialah pendekatan AutoML Google, yang pada dasarnya adalah kejuruteraan semula cara model ML dilatih. Google AutoML mengotomatikkan reka bentuk model ML untuk menjana seni bina rangkaian neural berdasarkan set data tertentu, dan kemudian menguji dan meleset pada ribuan kali untuk kod sistem yang lebih baik. Malah, AI Google kini boleh membuat model yang lebih baik daripada penyelidik manusia.
"Lihat Google AutoML: ML menulis kod ML jadi anda tidak memerlukan orang lain, " kata Baker. "Ini memberi anda idea tentang apa perbezaan ekstrim yang terdapat dalam vendor apa yang sedang dilakukan. Ada yang cuba melepaskan analitik lanjutan sebagai ML-dan itu tidak. Dan yang lain melakukan ML pada tahap yang lebih maju yang melebihi apa yang paling perniagaan boleh memahami pada masa ini."
Kemudian ada Kinetica. Permulaan berasaskan San Francisco, yang telah mengumpulkan dana $ 63 juta dalam modal teroka (VC), menyediakan pangkalan data SQL berprestasi tinggi yang dioptimumkan untuk pengamatan dan analisis data yang cepat. Kinetica adalah apa yang disebut Radalj sebagai pangkalan data dan platform komputasi yang diedarkan secara besar-besaran pemprosesan (MPP) yang mana setiap nod mempunyai data dalam memori, CPU, dan GPU.
Apa yang menjadikan pangkalan data AI berbeza dari pangkalan data tradisional, Radalj menjelaskan, turun kepada tiga elemen utama:
- Pengingesan data dipercepatkan,
- Co-locality data dalam memori (pemproses selari di seluruh nod pangkalan data), dan
- Platform umum untuk saintis data, jurutera perisian, dan pentadbir pangkalan data untuk meleset dan menguji model dengan lebih cepat dan menerapkan hasil secara langsung kepada analisis.
Bagi semua pakar latihan model dan AI yang tidak membaca dan membaca ini, Radalj memecah setiap tiga elemen teras ini dan menjelaskan bagaimana pangkalan data AI itu berkait dengan nilai perniagaan yang ketara. Ketersediaan data dan pengingesan data adalah kunci, katanya, kerana keupayaan untuk memproses data streaming masa nyata membolehkan perniagaan mengambil tindakan pantas terhadap pemahaman AI yang didorong.
"Kami mempunyai pelanggan runcit yang mahu menjejak harga jualan mengikut kedai, setiap lima minit, " kata Radalj. "Kami mahu menggunakan AI untuk meramalkan, berdasarkan beberapa jam terakhir data sejarah, sama ada mereka perlu menambah inventori dan mengoptimumkan proses itu. Tetapi untuk melakukan penambahan inventori yang didorong oleh mesin memerlukan sokongan 600-1200 pertanyaan sesaat. 'semula pangkalan data SQL dan pangkalan data AI, jadi kami dapat menanggung data pada kadar tersebut. Kami memenuhi misi perniagaan itu menghasilkan aplikasi yang mendorong lebih banyak ROI."
Baker bersetuju bahawa ML memerlukan sejumlah besar data sehingga menelannya dengan cepat akan sangat penting untuk pangkalan data AI. Faktor kedua, konsep "bersama-sama di dalam data memori, " mengambil sedikit penjelasan. Pangkalan data dalam memori menyimpan data dalam memori utama dan bukannya dalam storan cakera berasingan. Ia berbuat demikian untuk memproses pertanyaan lebih cepat, terutamanya dalam analisis dan pangkalan data BI. Dengan wilayah yang sama, Radalj menjelaskan bahawa Kinetica tidak memisahkan nod CPU dan GPU mengira nod penyimpanan.
Akibatnya, pangkalan data AI menyokong pemprosesan selari-yang meniru keupayaan otak manusia untuk memproses pelbagai rangsangan-sementara baki masih tersebar di dalam infrastruktur pangkalan data yang boleh terbaca. Ini menghalang jejak perkakasan yang lebih besar, yang disebabkan oleh apa yang disebut Radalj "penghantaran data" atau keperluan menghantar data ke belakang antara komponen pangkalan data yang berbeza.
"Sesetengah penyelesaian menggunakan orchestrator seperti IBM Symphony untuk menjadualkan kerja merentas pelbagai komponen manakala Kinetica menekankan penghantaran fungsi terhadap sumber-sumber bersama, dengan pengoptimuman lanjutan untuk meminimumkan penghantaran data, " kata Radalj. "Keadaan bersama itu meminjamkan diri kepada prestasi dan kelebihan yang unggul, terutamanya untuk pertanyaan berat yang sangat banyak pada set data besar."
Dari segi perkakasan pangkalan data sebenar, Kinetica bekerjasama dengan Nvidia, yang mempunyai barisan pengembangan GPU AI dan sedang mencari peluang dengan Intel. Radalj juga berkata syarikat itu mengawasi infrastruktur AI dan infrastruktur berasaskan awan seperti Unit Pemprosesan Tensor Google (TPU).
Akhirnya, ada idea proses latihan model bersatu. Pangkalan data AI hanya berkesan jika kebaikan pengambilan dan pemprosesan yang lebih cepat menjadi matlamat yang lebih besar, berorientasikan perniagaan untuk usaha syarikat ML dan pembelajaran yang mendalam. Radalj merujuk kepada pangkalan data AI Kinetica sebagai "platform saluran paip model" yang menjalankan hosting model berasaskan sains data.
Ini semua memberi pinjaman kepada ujian dan lelaran yang lebih cepat untuk membangunkan model ML yang lebih tepat. Pada ketika ini, Baker berkata bekerjasama dalam cara yang bersatu dapat membantu semua jurutera dan penyelidik yang bekerja untuk melatih model ML atau pembelajaran mendalam dengan lebih cepat dengan menggabungkan apa yang berfungsi, bertentangan dengan terus mencipta semula semua langkah dalam proses latihan. Radalj berkata matlamatnya adalah untuk mewujudkan aliran kerja di mana pengumpulan, penstriman, dan penstrukturan kumpulan yang lebih cepat menghasilkan keputusan model yang segera boleh digunakan untuk BI.
"Para saintis data, jurutera perisian, dan pentadbir pangkalan data mempunyai platform tunggal di mana kerja boleh dibina dengan jelas di sains data sendiri, penulisan program perisian, dan model data SQL dan pertanyaan, " kata Radalj. "Orang bekerja dengan lebih baik bersama-sama dalam pelbagai domain apabila ia merupakan platform yang lazim. Matlamatnya lebih sering daripada tidak dengan ML dan pembelajaran yang mendalam adalah, anda mahu menggunakan hasil itu-keberkesanan dan pembolehubah bersama-sama dengan analisis, dan gunakan output untuk perkara seperti pemarkahan atau untuk meramal sesuatu yang berguna."
Gembar-gembur atau realiti?
Nilai dasar pangkalan data AI, sekurang-kurangnya dalam cara yang ditentukan oleh Kinetica, adalah mengoptimumkan pengiraan dan sumber pangkalan data. Ini seterusnya membolehkan anda membuat ML dan model pembelajaran yang lebih baik, melatihnya dengan lebih cepat dan lebih cekap, dan mengekalkan garis lurus bagaimana AI akan digunakan untuk perniagaan anda.
Radalj memberikan contoh pengurusan atau syarikat pengangkutan trak. Dalam hal ini, pangkalan data AI dapat memproses aliran besar maklumat masa nyata dari armada kenderaan. Kemudian, dengan memodelkan data geospatial dan menggabungkannya dengan analisis, pangkalan data boleh mengalihkan trak secara dinamik dan mengoptimumkan laluan.
"Lebih mudah untuk menyediakan, prototaip, dan ujian dengan cepat. Perkataan 'pemodelan' dilemparkan di dalam AI, tetapi ia adalah mengenai berbasikal melalui pendekatan yang berbeza-lebih banyak data, lebih baik - menjalankannya lagi dan lagi, menguji, membandingkan, dan datang dengan model terbaik, "kata Radalj. "Rangkaian neural telah diberikan kehidupan kerana terdapat lebih banyak data daripada sebelumnya dan kita belajar untuk dapat mengira melaluinya."
Akhirnya, pangkalan data pangkalan data dan model saluran paip Kinetica hanyalah satu pendekatan dalam ruang yang boleh bermakna banyak perkara yang berbeza bergantung pada siapa yang anda minta. Baker berkata cabaran bagi pembeli di pasaran yang masih berkembang dan eksperimen adalah untuk mengetahui dengan tepat apa vendor pangkalan data AI sedang melancarkan.
"Sebagai sebuah konsep perniagaan, pembelajaran mendalam, ML, dan semua itu adalah konsep yang mantap. Apa yang kita sedang lakukan adalah isu-isu teknologi yang dapat diselesaikan, walaupun kita belum menyelesaikannya, " kata Baker. "Itu bukan untuk mengatakan ini adalah ruang yang matang kerana sudah tentu tidak. Saya akan mengatakan 'pembeli berhati-hati' kerana sesuatu yang bernada ML mungkin atau mungkin tidak.
Sama ada pangkalan data AI adalah semua gembar-gembur sekarang atau sama ada mereka merupakan trend penting untuk perniagaan mana, Baker berkata ia sedikit sebanyak. Beliau berkata Big Data, sebagai istilah pemasaran, tidak dapat diterima sekarang. Baker berkata kini terdapat beberapa konflasi pasaran di antara analisis maju maju, data dan ML dan algoritma pembelajaran yang mendalam. Walau apa pun, sama ada anda bercakap tentang pangkalan data untuk pemodelan ML atau AI yang menyedari diri sendiri yang diimpikan oleh budaya pop, semuanya bermula dan berakhir dengan data.
"Data akan digunakan dalam perniagaan sehingga habis masa, ia hanya menjadi pusat perniagaan, " kata Baker. "Apabila anda bercakap dari segi fiksyen sains, AI adalah kecerdasan yang direalisasikan sendiri, iaitu apabila anda mula bercakap tentang singulariti dan robot yang mengambil alih dunia, sama ada yang berlaku atau tidak, saya tidak tahu. itu kepada Stephen Hawking."