Isi kandungan:
- Bagaimana Pembelajaran Deep Membentuk Suara Manusia
- Mewujudkan Suara Orang yang Tidak Bercakap
- Mengimbangi Penggunaan Negatif AI Synthesizer
Video: 🔴[LIVE] JUMPA NYI RORO KIDUL SAAT PENARIKAN (November 2024)
Pada tahun 2017, Amyotrophic Lateral Sclerosis (ALS), gangguan neurologi yang dahsyat, merompak Pat Quinn, pengasas Cabaran Ais Buck yang terkenal, tentang keupayaannya untuk bercakap.
Terima kasih kepada kemajuan dalam pembelajaran mesin dan pembelajaran mendalam, algoritma kecerdasan buatan telah menjadi sangat baik pada meniru manusia. Tetapi sementara banyak perkembangan yang menonjol di dalam ruang telah negatif, kuasa tiruan AI adalah kekuatan perubahan positif untuk Quinn.
"Kebanyakan orang yang tinggal dengan ALS (juga dikenali sebagai penyakit neuron motor) akhirnya lumpuh dan tidak dapat berkomunikasi dengan apa-apa tetapi suara 'komputer' buatan, " kata Oskar Westerdal, pengasas projek Revoice, sebuah inisiatif yang bertujuan membantu pesakit ALS seperti Quinn.
Untuk mencipta suara Quinn, Project Revoice bekerjasama dengan Lyrebird, salah satu daripada segelintir syarikat yang menggunakan AI untuk mengklon suara seseorang - sebuah kumpulan yang juga termasuk WaveNet dan Voicery Google, permulaan yang disokong oleh Y Combinator yang menggunakan AI untuk membuat rakaman suara yang disintesis.
Bagaimana Pembelajaran Deep Membentuk Suara Manusia
Di belakang aplikasi ini adalah algoritma pembelajaran yang mendalam, sebuah cawangan popular AI yang membaca banyak data untuk wawasan dan corak yang tidak dapat ditangkap dengan perisian berasaskan peraturan tradisional. Apabila anda melatih pensintesis suara dalam pembelajaran dengan rakaman suara yang mencukupi, ia menghasilkan model digital yang mewakili suara seseorang dan boleh menghasilkan sampel suara baru.
Sebelum kemunculan teknologi sintetik suara berkuasa AI, pesakit ALS terpaksa menggunakan suara digital generik yang bukan mereka sendiri. Teknologi lain boleh menyusun ayat-ayat yang telah direkodkan dengan suara pesakit, tetapi hasilnya terlalu tiruan dan memerlukan puluhan jam rakaman suara untuk kegunaan minimum.
Aplikasi dalam pembelajaran, sebaliknya, memerlukan lebih banyak data dan memberikan hasil yang lebih baik. "Apa yang boleh dicapai oleh Lyrebird dengan hanya beberapa jam audio yang luar biasa-ia memberikan orang klon suara digital lengkap, supaya mereka boleh mengatakan apa sahaja yang mereka mahu, " kata Westerdal.
Mewujudkan Suara Orang yang Tidak Bercakap
Salah satu had aplikasi pembelajaran mendalam adalah pergantungan mereka terhadap sampel data berkualiti tinggi untuk melatih rangkaian saraf mereka. Masalah dengan pesakit ALS adalah bahawa apabila mereka kehilangan suara mereka, rakaman sampel suara adalah mustahil. Nasib baik, Quinn mempunyai jam kekunci dan wawancara yang direkodkan.
"Cabaran terbesar adalah kualiti. Teknologi ini bergantung sepenuhnya pada rakaman yang konsisten dan berkualiti tinggi yang juga mengikut skrip yang tepat-jadi kami terpaksa bekerja dengan studio yang baik untuk 'mengenang' secara manual dan menyalin setiap baris dialog yang kami dapati Pat, "kata Westerdal.
"Kami agak takut bahawa kami tidak dapat memberikan kualiti hebat untuk mewujudkan suara Pat, " kata Jose Sotelo, pengasas Lyrebird. "Oleh kerana kita tidak boleh mendapatkan rakaman yang bersih, kualiti akhir suara tiruan tidak sempurna. Kami fikir kami boleh melakukan kerja yang lebih baik dengan rakaman yang bersih."
Hasilnya masih terdengar agak tidak semulajadi dan sintetik. Tetapi untuk Quinn, yang telah menggunakan suara generik untuk berkomunikasi, perbezaan itu dramatik. "Selepas mendengar suara saya menerusi teknologi baru ini, saya terpesona! Bagi pesakit tahu mereka boleh memiliki suara mereka sendiri selepas ALS membawanya, ia akan mengubah cara orang hidup dengan ALS, " katanya.
Quinn mengesyorkan bahawa pesakit ALS merekod suara mereka sebelum terlambat. "Selepas mendengar suara saya sendiri, saya memerlukan pesakit ALS untuk mengetahui rakaman suara mereka sangat penting, " katanya.
Mengimbangi Penggunaan Negatif AI Synthesizer
Pada awal tahun ini, FakeApp, aplikasi bertukar wajah yang berkuasa AI, mencetuskan serangan video lucah palsu yang memaparkan selebriti dan ahli politik. Terdapat kebimbangan bahawa aplikasi seperti FakeApp dan Lyrebird akan menyebarkan berita baru, penipuan, dan pemalsuan yang baru.
Halaman etika di laman web Lyrebird sebelum ini mengakui bahawa teknologi itu boleh "berpotensi mempunyai akibat berbahaya seperti diplomat yang mengelirukan, penipuan, dan lebih umum lagi masalah lain yang disebabkan oleh mencuri identiti orang lain."
Untuk memacu titik itu, laman web syarikat itu mempunyai beberapa rakaman tersenarai yang dibuat dengan suara-suara Donald Trump dan Barack Obama.
@realDonaldTrump https://t.co/N6DRPdEGPT pic.twitter.com/G30DvmQNdk
- Lyrebird AI (@LyrebirdAi) 4 September 2017
Cerita Quinn dapat membantu menjelaskan aspek-aspek positif dari industri yang telah mengambil flak untuk penggunaan yang berpotensi menyeramkan dan tidak beretika dari aplikasi-aplikasinya. "Adalah penting bahawa orang menyedari kecemerlangan teknologi ini, " kata Sotelo dari Lyrebird.
Selain dari kegunaan perubatan, aplikasi AI synthesizer boleh menjadi matlamat yang produktif. Voicery menyediakan jenama dengan suara digital yang disesuaikan dengan algoritma AI. Google juga bereksperimen dengan WaveNet untuk memberikan pengalaman yang lebih alami kepada para pengguna peranti Google Asistennya. Lain-lain bidang di mana teknologi itu berguna termasuk mengautomasikan buku audio atau membuat dubbing suara dalam filem lebih mudah.
Rintangan beretika dan undang-undang tidak akan dinafikan dan perdebatan akan diteruskan. Tetapi untuk Quinn, AI adalah kekuatan untuk kebaikan. "Saya tidak mahu bunyi seperti komputer, " katanya. "Saya mahu berbunyi seperti saya."