Rumah Audio Saya mendengar orang mati? teknologi bahasa semula jadi membuat suara masa lalu dan sekarang menjadi hidup

Saya mendengar orang mati? teknologi bahasa semula jadi membuat suara masa lalu dan sekarang menjadi hidup

Isi kandungan:

Anonim

Hari-hari ini, kebanyakan suara komputer bersifat sementara. Anda mungkin tidak terlalu bangkit mengenai cyborgs dan robot apabila anda mendengar "droid" di telefon anda membantu anda dengan bayaran bil atau bertanya kepada anda jabatan yang anda mahukan. Tetapi bagaimana jika anda tiba-tiba mendengar Kurt Cobain membuat anda maklumat kad? Atau John F. Kennedy memberitahu anda tentang keajaiban pengundian awal? Atau Elvis mendapatkan nama dan alamat anda sebelum memecah masuk ke dalam "potongan, cinta yang membakar?"


Semua ini akan … agak pelik, tetapi yang lebih menarik lagi adalah bahawa teknologi pada dasarnya sudah ada di sini. Hanya satu dekad yang lalu, kami kagum dengan keupayaan komputer untuk bercakap sama sekali. Sekarang, kami akan dilayan dengan pelbagai percuma, suara yang dijana oleh komputer yang sama seperti orang yang kita kenal.

Perubahan Besar dalam NLP

Jika anda memberi perhatian kepada bidang pemprosesan bahasa semulajadi (NLP), anda mungkin pernah mendengar mengenai beberapa kemajuan baru-baru ini yang melampaui jenis suara pembantu maya yang telah kami dengar sekarang dalam sistem kedudukan global kami (GPS) dan perniagaan automatik talian telefon.


Permulaan NLP memerlukan banyak penyelidikan ke dalam mekanik umum ucapan manusia. Penyelidik dan jurutera terpaksa mengenal pasti fonetik individu, melipatganya ke dalam algoritma yang lebih besar untuk menghasilkan frasa dan ayat, dan kemudian cuba menguruskan semuanya di meta-level untuk menghasilkan sesuatu yang terdengar nyata. Lama kelamaan, pemimpin NLP menguasai ini dan mula membina algoritma canggih untuk memahami apa yang dikatakan manusia. Meletakkan kedua-dua mereka bersama-sama, syarikat-syarikat datang dengan pemandu untuk pembantu maya hari ini dan kerani membayar gaji digital sepenuhnya, yang sikapnya - sementara menjengkelkan - masih menakjubkan apabila anda berhenti untuk memikirkan kerja yang masuk ke dalam mereka.


Sekarang, sesetengah syarikat melampaui suara maya generik untuk menyatukan hasil peribadi yang lebih spesifik. Ini memerlukan melalui leksikon orang tertentu dan mengumpul sejumlah besar video suara yang unik, kemudian menggunakan arkib ini untuk irama kompleks untuk fonetik, penekanan, irama dan semua isyarat kecil lain yang ahli bahasa sering berkumpul di bawah panji-panji "prosody" yang luas.


Apa yang keluar adalah suara yang difikirkan oleh para pendengar sebagai "dimiliki" oleh orang tertentu - sama ada seseorang yang mereka kenal dan telah bercakap dengan, atau seseorang yang suara mereka dikenali sebagai hasil kemasyhuran orang itu.


Dari Elvis hingga Martin Luther King, suara siapa pun kini boleh "diklonkan" dengan cara ini - dengan syarat terdapat rekod pencatatan kata-kata yang besar. Dengan menggunakan analisis dan manipulasi yang lebih terperinci untuk bunyi kecil individu, syarikat dapat membuat salinan karbon maya seseorang yang terdengar seperti halnya yang sebenar.

Ciptaan "Teks untuk Suara" yang menarik di VivoText

Sebagai contoh, VivoText adalah satu syarikat yang bekerja untuk merevolusikan penggunaan suara manusia buatan untuk semua jenis kempen, dari audiobook hingga respons suara interaktif (IVR). Di VivoText, pasukan penyelidikan dan pengeluaran sedang mengusahakan proses yang, secara teorinya, dapat meniru semula suara selebriti, seperti Ol 'Blue Eyes sendiri.


"Untuk mengklon suara Frank Sinatra, kita sebenarnya akan melalui legasi yang direkodkannya, " kata Ketua Pegawai Eksekutif VivoText Gershon Silbert, bercakap tentang bagaimana teknologi seperti ini boleh berfungsi.


Kini, VivoText sedang mengarkibkan suara orang-orang yang masih bersama kami, seperti koresponden NPR Neal Conan, yang telah mendaftar sebagai model untuk projek perintis IT seperti ini. Video promosi menunjukkan pekerja VivoText dengan teliti mewujudkan modul kod fonetik menggunakan input suara yang disediakan dari Conan. Mereka kemudiannya membuat model untuk alat teks untuk ucapan (TTS) yang membangkitkan hasil yang dramatik dan manusia.


Menurut Ben Feibleman, naib presiden strategi dan pembangunan perniagaan di VivoText, komputer ini berfungsi pada tahap fonem (menggunakan bahagian unik ucapan yang unik) untuk menyesuaikan dengan model prosodik untuk suara manusia individu.


"Ia tahu bagaimana ceramah suara, " kata Feibleman, sambil menambahkan dengan menggunakan "pemilihan unit, " komputer memilih beberapa keping untuk menyusun satu perkataan pendek, seperti mana perkataan "Friday" diberikan lima komponen yang membantu membangun penekanan tertentu dan hasil tonal.

Suara Buatan dalam Pemasaran

Jadi, bagaimanakah kerja ini dalam pemasaran? Produk VivoText boleh menjadi sangat berguna dalam menghasilkan produk, seperti buku audio, yang boleh mencapai khalayak sasaran. Sebagai contoh, berapa jauh lebih berkesan suara Elvis dapat dibandingkan dengan satu suara generik, deadpan, suara automatik sekarang jika ia digunakan untuk menjual produk yang berkaitan dengan hiburan?


Atau bagaimana pula dengan politik? Feibleman telah mengusahakan pelbagai idea untuk menggunakan projek seperti ini untuk meningkatkan pemasaran untuk syarikat atau pihak lain yang memerlukan pesanan yang lebih berkesan.


"Sekiranya anda tahu mana-mana ahli politik yang menjalankan tugas untuk presiden, ini boleh mempunyai 10 juta pengundi bersendiri yang mendapat panggilan peribadi dari seorang calon, mengucapkan terima kasih atas sokongan mereka, memberitahu mereka di mana mereka perlu pergi untuk mengundi, cuaca dan semua perayaan malam sebelum pilihan raya, "kata Feibleman.

Hidup Suara Anda

Terdapat satu lagi aplikasi yang jelas untuk semua teknologi ini. Syarikat bahasa semulajadi seperti VivoText boleh mencipta perkhidmatan peribadi yang akan memuat naik semua data suara pelanggan ke dalam produk yang akan membolehkan orang itu "bercakap selama-lamanya."


Pelaksanaan praktikal mungkin akan menimbulkan banyak persoalan tentang bagaimana kita mendengar dan menginternalisasi suara yang diucapkan. Sebagai contoh, apa yang diperlukan untuk membuat bunyi aliran bunyi betul-betul seperti seseorang? Seberapa baik kita perlu mengenali seseorang untuk mengenali suara tertentu? Dan, dengan menariknya, apa yang berlaku jika perkhidmatan bahasa semulajadi menghasilkan karikatur mentah, bukannya meniru yang menarik?


Menilai hasil, kata Feibleman, sering bergantung pada pertimbangan konteks. Contohnya, dia mengatakan bahawa kanak-kanak biasanya tidak bertanya tentang siapa yang bercakap apabila mereka mendengar cerita. Mereka hanya mahu lebih. Tetapi, ramai orang dewasa tidak boleh berfikir tentang siapa yang bercakap dengan mereka, memandangkan senario tertentu, seperti siaran pasif atau mesej telefon. Selain itu, lebih mudah ditipu oleh komputer melalui telefon kerana bunyi teredam dapat menutupi gangguan atau perbezaan lain antara keputusan komputer dan suara manusia.


"Ia tidak berlaku kepada anda untuk mencabar kesahihan suara, " kata Feibleman.

Pada Tahun 2525

Apabila syarikat bergerak maju dalam membangunkan produk dan perkhidmatan dan menjawab soalan-soalan ini, teknologi "teknologi hidup" dapat memajukan kita ke arah penumpuan teknologi dan minda manusia, yang secara klasik disebut kecerdasan buatan (AI).


Jika komputer boleh bercakap seperti kita, mereka mungkin dapat menipu pengguna lain untuk berfikir bahawa mereka berfikir seperti kita, memberi keutamaan prinsip yang lebih besar, seperti yang diantar ke dalam kamus leksikon kita oleh John von Neumann, perintis berteknologi era 1950 yang diajarkan oleh penulis dan pemikir seperti Ray Kurzweil. Buku 2005, Kurzweil, "Singularity Is Near, " mengasyikkan dan menakutkan orang lain. Kurzweil meramalkan bahawa menjelang 2045, "kecerdasan" sebagai fenomena akan menjadi sangat tidak terkawal dari otak manusia dan berhijrah ke teknologi, mengaburkan garis antara mesin dan tuan manusia mereka.


Diabadikan dalam lirik Zager & Evans '"Dalam Tahun 2525" (tidak ada yang menyeramkan cerita-cerita sci-fi seperti lelaki ini) …


Pada tahun 4545

Anda tidak akan memerlukan gigi anda, tidak perlu

mata awak

Anda tidak akan dapat mengunyah

Tiada siapa yang akan memandang awak


Pada tahun 5555

Lengan udara anda 'lemas di sebelah anda

Kaki anda tidak perlu dilakukan

Beberapa doin 'mesin untuk anda


Adakah komputer menyuarakan langkah ke arah ini? Sebagai cara baru untuk mengeksekusi beberapa fungsi tubuh manusia (atau lebih kerap, untuk mensimulasikannya), kemajuan teknologi seperti ini adalah salah satu yang terbesar - dan mungkin kurang dilaporkan - kemajuan di ufuk ketika kita melihat masa depan tunggal . (mengenai "keistimewaan" dalam Komputer Akan Dapat Meniru Pikiran Manusia?)

Saya mendengar orang mati? teknologi bahasa semula jadi membuat suara masa lalu dan sekarang menjadi hidup