亞馬遜于 2014 年推出的 Echo 設備普及了設備的概念,其中唯一的交互方式是通過語音和對話?,F(xiàn)在似乎每個月都會在處理語音命令和執(zhí)行操作的專用設備方面帶來新的發(fā)展。然而,這些設備究竟是什么?
大眾媒體稱它們?yōu)椤爸悄芤粝洹被颉罢Z音助手”或“智能個人助理”,但這兩個詞并不完全相似。智能音箱讓人聯(lián)想到一個主要面向輸出的設備,旨在用語音命令取代鍵盤或按鈕交互。然而,對于亞馬遜、谷歌、微軟、蘋果、阿里巴巴、騰訊、三星、百度等公司投資的數(shù)十億美元來說,這是一個特別微不足道的應用程序,這些公司認為這是一個試圖占據(jù)主導地位的關鍵市場。畢竟,如果所有這些供應商所做的只是允許您根據(jù)聲音要求播放 Taylor Swift 或讓您詢問天氣,為什么所有這些供應商都如此積極地營銷和推廣這些設備?
顯然,這里有比簡單的聲控揚聲器更大的作用。智能音箱是一種與客戶群進行更智能互動、進入更多家庭和企業(yè)并讓人們習慣使用這些設備的方式。真正的游戲不僅僅是您可以用聲音控制的揚聲器。動力不在于音箱,而在于為設備供電的基于云的技術,不是智能音箱,智能對話助手。
如果您詢問 Amazon 和其他公司,您就會知道播放音樂、游戲和簡單地回答查詢并不是他們對這些對話網(wǎng)關設備的愿景的最終狀態(tài)。這些設備是低成本的輸入和輸出硬件,是通往位于主要科技公司數(shù)據(jù)中心的更強大基礎設施的門戶。智能對話助手不僅可以作為被動設備,還可以代表您主動采取行動,執(zhí)行需要與其他人互動的任務,也許很快,另一端的其他對話助手。具有諷刺意味的是,揚聲器部分是實現(xiàn)它的最不相關的部分。它只是提供輸出。所有功率都發(fā)生在該輸出之前。
的確,會話設備到底在哪里?例如,在 Google 助理與餐廳互動進行預訂的 Google Duplex 演示中,揚聲器本身甚至不在那里。這一切都發(fā)生在基于云的交互的幕后。我們沒有看到設備,因為這里不需要設備。這些設備只是通往基于云的數(shù)據(jù)中心中發(fā)生的真實活動的網(wǎng)關。在 Google Duplex 演示中,對話代理完全在 Google 數(shù)據(jù)中心的幕后運作,通過 IP 電話 (VoIP) 電話線與另一端的人進行交互。
這些設備有多智能?
2018 年,Cognilytica 宣布創(chuàng)建語音助手基準測試以測試設備的智能,并在 2019 年跟進了另一個基準測試?;鶞蕼y試的目的不是測試設備的自然語言處理 (NLP) 或自然語言生成 (NLG) 功能,這些功能現(xiàn)在對于想要獲得高質(zhì)量自然語言功能的任何人來說都是相當標準的?;鶞蕼y試的目的也不是查看這些設備可以執(zhí)行什么樣的技能。我們知道,更好的 NLP/NLG 意味著能夠處理更廣泛的語音、口音、語言和說話者特征,更多的技能意味著更多的單任務能力。就我們而言,這些都是“賭注”。基準測試的目的是了解這些設備的真正智能程度,而不僅僅是聲控搜索和檢索工具。
如果設備的力量不在于設備本身,而在于賦予這些設備真正功能的后端智能,那么我們需要測試一下后端到底有多智能。當你將兩件事放在一起比較時,對話代理能理解嗎?他們是否理解需要常識或文化知識的隱含的不言而喻的事情?例如,安排理發(fā)預約的對話代理應該知道您不應該在上次理發(fā)后幾天安排理發(fā),或者在晚宴前安排根管牙醫(yī)預約。這些是人類可以做的事情,因為我們擁有知識、智慧和常識。然而,正如我們在最初的基準測試中所展示的那樣,無論是 Google Home、Amazon Echo 還是 Apple Siri 設備都無法回答“什么更大:太陽還是地球?”這個問題。您會相信這些設備會影響您的生活嗎?沒有。但是,我們的目標是幫助朝著這個方向發(fā)展。
智能對話助理的意義
在不遠的將來,智能助手將無處不在。在我們的個人和商業(yè)生活中,我們每天都會與他們互動。我們將與家中的助理聊天,并與其他人和企業(yè)的對話代理互動。在未來,每個人都將擁有個人電子虛擬助理,我們將讓他們做所有事情,從在您舉辦生日派對時向朋友發(fā)送消息,到為該派對安排所有后勤工作,再到處理遲到者的來電誰做不到。很快,就像我們現(xiàn)在依賴 GPS 系統(tǒng)防止迷路和我們的手機讓我們始終保持聯(lián)系一樣,我們將依賴這些智能助手來維持我們的生活。
在我們的助手成為我們在科幻電影和電視節(jié)目中看到的那種類型之前,我們還有很長的路要走。如果我們想讓我們的智能對話助手像《星際迷航:下一代》中的計算機一樣,我們需要它們變得更有用、更智能、更值得信賴。這就是為什么我們需要智能助手而不僅僅是所謂的“智能音箱”。