Apakah perbezaan antara ucapan dengan teks dan chatbots?

2026

Perbezaan yang signifikan antara teknologi ucapan dan teks dan chatbots adalah sebahagian daripada apa yang sedang diperiksa dalam evolusi pesat projek chatbot dan voicebot.

Teknologi ucapan-ke-teks hanyalah salah satu yang mengubah ucapan lisan ke teks pada halaman digital. Itulah fungsi penuhnya, tetapi ia bukan satu yang mudah untuk mereka bentuk. Untuk menukar kata-kata lisan ke teks, teknologi ini harus memecahkan kata-kata dan ayat-ayat ke dalam fonem individu dan bekerja dengan mereka mengikut algoritma kompleks untuk membuat teks yang tepat dan mewakili apa yang dikatakan penceramah itu.

Di sebaliknya, Chatbots adalah teknologi yang mencapai matlamat berkomunikasi dengan manusia. Terdapat dua jenis chatbots: chatbots teks dan voicebots. Sembang teks teks telah lama bertiup, kerana mereka tidak memerlukan elemen ucapan-ke-teks yang menggunakan voicebots.

Perbezaan utama antara teknologi ucapan dan teks dan chatbots adalah skop. Seperti yang disebutkan, semua teknologi ucapan-ke-teks perlu dilakukan adalah untuk menyalin ucapan lisan. Sebaliknya, chatbot perlu membuat ucapan dalam apa bentuk yang dibuat untuk, memahaminya, dan memberikan tanggapan yang ingin lulus ujian Turing - ujian sama ada teknologi boleh menipu manusia untuk memikirkan bahawa dia bercakap dengan orang lain.

Dengan itu, chatbots jauh lebih mudah untuk dibuat daripada voicebots. Chatbot mengambil teks manusia dan memberikan respons teks. Walaupun chatbots yang agak mudah telah dapat memberikan hasil yang menarik dan menyeronokkan untuk manusia sejak akhir 1980-an dan awal 1990-an.

Sebaliknya suara voicebot itu harus mengambil ucapan lisan, mengubahnya menjadi teks, periksa untuk ketepatan, menghasilkan respons, dan membina respon dari bahasa mesin ke dalam ucapan yang boleh didengar. Ini sejumlah besar tugas yang cukup signifikan bermakna voicebot itu mengambil banyak kuasa pengkomputeran dan banyak reka bentuk untuk membina.

Projek seperti Siri, Cortana dan Alexa menunjukkan sebahagian daripada barisan teknologi voicebot. Mereka juga menggambarkan bahawa teknologi ini masih di peringkat awal. Walaupun Alexa dan teknologi lain dapat menjawab secara lisan terhadap ucapan manusia, mereka tidak begitu berupaya dalam arti bahawa kita mengaitkan dengan ucapan manusia secara lisan secara umum. Dengan kata lain, terdapat sedikit batasan untuk tanggapan yang dapat diberikan oleh teknologi ini. Malah ada keupayaan terhad generasi pembantu peribadi hari ini untuk benar-benar menjana ucapan kepada teks, contohnya, untuk tujuan menyalin e-mel atau membantu seseorang menulis esai tanpa menggunakan tangan mereka. Beberapa program ucapan-teks yang khusus di pasaran melakukan ini lebih baik daripada Siri atau Cortana, mungkin disebabkan oleh peruntukan sumber. Walau bagaimanapun, terdapat tanda-tanda bahawa kemajuan voicebot akan segera dimulakan - seperti platform Amazon Amazon yang membolehkan persekitaran studio untuk membina jenis teknologi ini.

Dalam esei yang bijak dan teliti mengenai subjek itu, Tobias Goebel bercakap tentang perbezaan antara teknologi ini, membezakan proses "menyalin", ucapan teks kepada teks, untuk kerja pemahaman, yang mana chatbots sepatutnya lakukan.

"Walaupun menghilangkan keperluan pengiktirafan ucapan membuat lebih mudah untuk chatbot, cabaran utama untuk membina bot berfungsi terletak pada pemahaman bahasa semula jadi, " tulis Goebel.

Goebel juga mengenal pasti ramai pemain semasa dalam industri ini:

Pemimpin pasaran untuk pengiktirafan ucapan adalah Nuansa, yang berada di belakang sistem yang terkenal seperti Dragon NaturallySpeaking untuk dikte pada PC, yang telah ada sejak tahun sembilan puluhan, tetapi juga Siri: tugas pengiktirafan / transkripsi ucapan yang dijalankan dalam penggunaan cloud Apple Teknologi nuansa di belakang tabir. Yang lain adalah LumenVox, Verbio, atau Interaksi, tetapi pengenalan ucapan kini juga ditawarkan sebagai perkhidmatan awan melalui API oleh orang-orang seperti Amazon, Google, Microsoft, dan IBM.

Oleh kerana chatbots berkembang, ia dianggap bahawa pemahaman mereka akan terus meningkat pada beberapa lintasan - dan ia juga sebahagian besarnya mengandaikan bahawa lebih banyak teknologi bot akan lulus dari antara muka teks dengan muka lisan, yang memerlukan jumlah tambahan kuasa pengkomputeran.