你的位置:首頁 > 測試測量 > 正文

智能手機(jī)的超性能語音識別技術(shù)

發(fā)布時間:2011-12-20

中心議題:
  • 學(xué)習(xí)智能手機(jī)的超性能語音識別技術(shù)
  • 手機(jī)提供的羅盤或者GPS能夠增強(qiáng)自然語言處理的有用性
解決方案:
  • 在移動設(shè)備方面設(shè)計(jì)
  • 硬件和軟件技術(shù)

當(dāng)語音識別技術(shù)應(yīng)用到計(jì)算機(jī)桌面的時候,這看起來似乎是一個好主意。但是,對于大多數(shù)人來說,語音識別還不能取代鍵盤和鼠標(biāo)?,F(xiàn)在,語音技術(shù)正用于一個全新的環(huán)境:手機(jī)。語音識別技術(shù)在手機(jī)中的應(yīng)用將進(jìn)一步推動這種技術(shù)向新的方向發(fā)展和應(yīng)用。這是語音識別技術(shù)在臺式電腦應(yīng)用中從來沒有涉足的方向。

IBM今年將紀(jì)念其創(chuàng)建100周年。IBM在60年代初期創(chuàng)建了一個名為“Shoebox”的試驗(yàn)性的語音識別系統(tǒng)。這個系統(tǒng)解決了口語算法問題。語音識別技術(shù)是在50年代作為一項(xiàng)早期的技術(shù)第一次出現(xiàn)的,當(dāng)時主要是由于好奇。在60年代初,IBM的“Shoebox”設(shè)備能夠識別出16個口語單詞并且能夠回答簡單的數(shù)學(xué)問題,如“3 + 4 =?”。

Dragon Systems在80年代初為DOS計(jì)算機(jī)推出的DragonDictate可能是第一個語音識別應(yīng)用程序。這個應(yīng)用程序只能識別單個單詞,每次只說一個單詞。隨著時間的推移,這個應(yīng)用程序已經(jīng)發(fā)展成為名為“Dragon NaturallySpeaking”(目前是第11個版本,由Nuance通訊公司所有)的產(chǎn)品。這個應(yīng)用程序能夠翻譯以正常的會話語音和速度讀出的文本。

語音識別技術(shù)在臺式電腦中的應(yīng)用有兩個制約因素。第一,為了使這個應(yīng)用程序以更高的準(zhǔn)確性工作,這個應(yīng)用程序必須要進(jìn)行訓(xùn)練以便識別用戶的語音特征。Windows Vista和Windows 7操作系統(tǒng)中的本地語音轉(zhuǎn)換文本技術(shù)和Dragon NaturallySpeaking等第三方產(chǎn)品仍然都需要一個用戶訓(xùn)練期才能使用。

第二個制約因素是鍵盤的流行程度。大多數(shù)人已經(jīng)習(xí)慣于鍵盤打字而不是講話,因此,語音控制面臨Dvorak鍵盤布局同樣的應(yīng)用障礙。當(dāng)簡單的老式QWERTY鍵盤供貨充足并且工作的很好的時候,為什么要學(xué)習(xí)使用Dvorak鍵盤呢?

微軟TellMe團(tuán)隊(duì)是負(fù)責(zé)為多媒體環(huán)境開發(fā)語音識別技術(shù)的部門。TellMe團(tuán)隊(duì)高級產(chǎn)品經(jīng)理Abhi Rele指出,在臺式電腦環(huán)境,用戶有方便的人機(jī)交流模式,如鍵盤和鼠標(biāo)。因此,語音的使用主要是針對語音愛好者的。

語音控制的計(jì)算更廣泛的應(yīng)用需要兩件事情:更好的方便的應(yīng)用和主要使用語音的地方。手機(jī)正是很長時間以來一直在增長的這種地方。

Nuance負(fù)責(zé)產(chǎn)品管理和營銷的副總裁Matt Revis解釋說,臺式電腦和移動環(huán)境的區(qū)別是這樣的:臺式電腦是一個固定的環(huán)境,重點(diǎn)完全在于臺式電腦的使用情況。因此,臺式電腦的語音技術(shù)主要執(zhí)行如下任務(wù):支持辦公應(yīng)用程序、網(wǎng)絡(luò)瀏覽、通訊等。在移動方面,語音更多地用于支持各種生活方式方面:移動中的專業(yè)人員、戶外的有趣活動、免提電話等等。

Gartner分析師Tuong Nguyen贊同這個觀點(diǎn):語音在移動環(huán)境中更有意義。他說,從使用的角度看,掌上設(shè)備的語音識別功能價值更大。它增加了用戶友好的、方便的輸入方式。

Nguyen補(bǔ)充說,如果不用語音技術(shù)說出一個簡單的說明語句,而是翻動許多菜單或者努力地在小顯示屏鍵盤上進(jìn)行輸入,語音識別的價值就顯現(xiàn)出來了。隨著觸摸屏設(shè)備(沒有物理鍵盤)應(yīng)用的增長,語音識別技術(shù)將用來增強(qiáng)數(shù)據(jù)輸入和輸出。語音識別還支持免提要求或者法律要求。
[page]
在移動設(shè)備方面


因?yàn)橐苿釉O(shè)備一般僅支持臺式電腦的一部分存儲和處理功能,語音處理需要一些時間才能以基本的形式出現(xiàn)在手機(jī)中。

語音處理Springer手冊解釋了手機(jī)在2000年代初的情況。盡管那時還有一些局限性,但是,手機(jī)經(jīng)過編程之后能夠識別逐個數(shù)字的撥號語音,在某種程度上還能識別人的名字。主要問題是內(nèi)存,因此,大多數(shù)手機(jī)一次只能識別10個數(shù)字或者名字。但是,這些作者指出的另一個問題是這個功能使用的比較少,可能是因?yàn)槭謾C(jī)廠商在這方面的營銷很糟糕。

隨著手機(jī)的增加內(nèi)存和增強(qiáng)處理能力,普通手機(jī)的識別能力也增強(qiáng)了。三星電子在2005年發(fā)布的售價99美元的SCH-p-207型手機(jī)增加了語音至文本的聽寫功能和語音撥號功能。隨著內(nèi)存達(dá)到數(shù)百M(fèi)B和存儲容量達(dá)到數(shù)GB,目前這一代智能手機(jī)很少受到限制。

另一個關(guān)鍵的進(jìn)步是網(wǎng)絡(luò)速度。速度更快的無線網(wǎng)絡(luò)浪潮抬高了許多大船,包括最新一代的語音處理技術(shù)。速度更快的網(wǎng)絡(luò)能夠把語音處理任務(wù)從網(wǎng)絡(luò)遷移到遠(yuǎn)程服務(wù)器。

谷歌語音搜索產(chǎn)品經(jīng)理Amir Mane解釋了速度更快的網(wǎng)絡(luò)是如何幫助谷歌語音應(yīng)用程序的。他說,由于所有繁重的處理任務(wù)都是由谷歌服務(wù)器在網(wǎng)絡(luò)上處理的,我們減少了掌上設(shè)備計(jì)算能力的限制。

目前的應(yīng)用程序

手機(jī)語音識別技術(shù)目前的狀態(tài)不僅僅局限于語音撥號。語音啟動的功能實(shí)際上就包括語音撥號。這是手機(jī)上出現(xiàn)的第一個語音識別功能。目前,甚至許多低端手機(jī)都有這個功能,盡管這個功能處理手機(jī)電話簿中一些不常用的名字的時稍差一些。

Gartner分析師Nguyen指出,比較新的一代語音功能是更開放的。不用編程執(zhí)行某些功能的具體的語音指令,應(yīng)用程序可識別語音并且執(zhí)行適當(dāng)?shù)男袆?。更高端的、更?qiáng)大的設(shè)備使這些應(yīng)用更可行。換句話說,不僅僅是能夠使用這個短語“呼叫888-555-1212”撥打一個電話號碼,用戶還可以說“呼叫媽媽”或者“給我媽媽打電話”。

谷歌語音搜索擁有比以前的語音識別技術(shù)更少的限制,因?yàn)樗械姆敝厝蝿?wù)都是由網(wǎng)絡(luò)服務(wù)器完成的。這使谷歌語音搜索等語音驅(qū)動的應(yīng)用程序更可行。例如,如果你說“創(chuàng)戰(zhàn)紀(jì)電影時間”,你會看到一個網(wǎng)頁列出地區(qū)編號或者位置。這個應(yīng)用程序不僅能夠識別出這個短語的意思,而且還能提供你的手機(jī)(你當(dāng)前的位置)和網(wǎng)站(上映時間)的信息。

這個應(yīng)用程序還非常熟悉英語,不用進(jìn)行訓(xùn)練就能自動分辨出一些詞匯的差別。如果我說“摩特里褲(Motley Crue)樂隊(duì)”,這個應(yīng)用程序甚至能在搜索詞匯方便使用這個樂隊(duì)的獨(dú)特的拼寫,盡管它會漏掉變音符號。搜索“Motley''''s Crew”,你會得到一個喜劇片。

這就是說谷歌語音識別的限制明顯地表明將使你進(jìn)一步脫離主流的英語。外國人的名字是沒有幫助的。語音識別應(yīng)用程序的另一個問題是環(huán)境的噪音。移動用戶受環(huán)境噪音的影響通常比臺式電腦用戶多。Nuance公司的Revis稱,在充滿噪音的戶外環(huán)境中,語音識別的準(zhǔn)確性是一個問題。

自從2005年三星的那款手機(jī)推出以來,聽寫功能已經(jīng)取得了長足的進(jìn)步。由Dragon NaturallySpeaking驅(qū)動的iPhone的Dragon聽寫功能允許用戶聽寫從備忘錄、電子郵件到Twitter更新等一切內(nèi)容。用于電子郵件的Dragon軟件為黑莓設(shè)備提供了類似的功能。

對于Android手機(jī)來說,Nuance提供了FlexT9軟件。這個軟件把Dragon聽寫功能與三種類型的觸摸屏輸入方式結(jié)合在了一起。還有一個Handcent短信應(yīng)用程序。這個應(yīng)用程序集成了Android本地語音識別技術(shù)以幫助你用語音發(fā)短信。

文本之間的翻譯目前已經(jīng)推出多年(如通過知名的Babel Fish網(wǎng)站進(jìn)行翻譯)。同聲翻譯功能現(xiàn)在還沒有,不過,這種軟件很快會推出。例如,用于iPhone的Jibbigo軟件可翻譯單詞、短語和合理的簡單句子,讓雙方交替地講話。
[page]
未來的方向

詢問參加開發(fā)語音技術(shù)的每一個人下一個巨大的步驟是什么。他們一般會給你一個答案:自然語言處理。

Revis把它解釋為理解你的意思的系統(tǒng),它不僅僅知道你說什么。在會話式的互動模式中,用戶說自己要說的話,沒有限制用戶如何說這個話。他提供了指令或者要求得到信息的例子,如“我在什么地方能夠買到100美元以下的尼康照相機(jī)?”或者“給杰尼發(fā)個短信說我晚到20分鐘”或者“今天晚上在Morton''''s訂三個人的地方”。

谷歌的Mane稱,在口語對話中提供自然的語言處理是一個雙重挑戰(zhàn)。首先,你必須識別這些單詞,然后,你必須理解這個意思。第一部分變得更加容易了。但是,第二部分仍然很難解決:意思是根據(jù)上下文確定的和難以應(yīng)付的,人類做的語法分析也不是總是成功的。

微軟的Rele認(rèn)為,手機(jī)提供的額外的服務(wù)(如羅盤或者GPS)能夠增強(qiáng)自然語言處理的有用性。他說,你可以為兩個人安排吃飯和看電影,方法是利用不同來源的數(shù)據(jù)把這個任務(wù)分開,如使用日歷、飯店排名、電影評論和位置等數(shù)據(jù)。

此外,手機(jī)的服務(wù)能夠用于提供講話的環(huán)境。Rele表示,用戶的語音輸入以及從其它有關(guān)用戶及用戶環(huán)境的傳感器和狀態(tài)獲得的智能信息可以提供更豐富的和更相關(guān)的結(jié)果。例如,如果你剛剛使用Foursquare網(wǎng)站查看有關(guān)飯店,一些含糊的語音指令就會傾向于外出吃飯、訂膳宿和要一輛出租車等事情。

多平臺應(yīng)用程序Vlingo自稱是“虛擬助手”,已經(jīng)能夠提供這些方面的功能。這個軟件插入到OpenTable和Fandango等服務(wù)中以完成許多任務(wù):訂飯店、訂電影票等等。

Nguyen認(rèn)為未來語音識別技術(shù)改善的另一個領(lǐng)域是游戲。他說,在游戲中可以使用語音以增加玩游戲的不同氛圍。例如,你可以把Kirk-style船長的命令傳遞給恒星飛船或者在在一個神秘的事情中審訊疑犯。
是你嗎?已經(jīng)應(yīng)用的另一個功能是自動地把語音識別適用于單個用戶。這是臺式電腦語音識別技術(shù)所要求的免提版語音訓(xùn)練。

例如,最新版本的谷歌語音搜索有一個選擇性加入功能,允許隨著時間的推移建立一個用戶的客戶化語音特征。Mane解釋說,當(dāng)用戶選擇使用客戶化語音識別的時候,我們在用戶和用戶的語調(diào)方面畫一個界限,這使我們能夠建立一個初步的、個性化的語音識別模式。

然而,個性化識別并不是一個能夠解決一切問題的技術(shù),它只是實(shí)現(xiàn)語音識別更加無縫化的一個過渡步驟。Mane稱,我們沒有把個性化識別看作一個唯一的解決方案,因?yàn)檫€會有更多的一系列的技術(shù)創(chuàng)新。Mane認(rèn)為,這種技術(shù)未來的改進(jìn)需要我們的用戶更積極的參與。

結(jié)論

手機(jī)一直是許多技術(shù)的孵化器和推動因素,這包括硬件和軟件技術(shù)。到目前為止,在這個組合中增加語音功能僅產(chǎn)生了逐步的改善,谷歌語音應(yīng)用程序的很好的功能。

但是,這些改進(jìn)正逐步地為更重要的進(jìn)步鋪平道路。移動技術(shù)為如何聚集這些新技術(shù)提供了一個全新的舞臺。下一步也許不是一個理解你說的一切事情的手機(jī),而是能夠充分理解你說的事情的一個更有用的手機(jī)。
要采購鍵盤么,點(diǎn)這里了解一下價格!
特別推薦
技術(shù)文章更多>>
技術(shù)白皮書下載更多>>
熱門搜索
壓控振蕩器 壓力傳感器 壓力開關(guān) 壓敏電阻 揚(yáng)聲器 遙控開關(guān) 醫(yī)療電子 醫(yī)用成像 移動電源 音頻IC 音頻SoC 音頻變壓器 引線電感 語音控制 元件符號 元器件選型 云電視 云計(jì)算 云母電容 真空三極管 振蕩器 振蕩線圈 振動器 振動設(shè)備 震動馬達(dá) 整流變壓器 整流二極管 整流濾波 直流電機(jī) 智能抄表
?

關(guān)閉

?

關(guān)閉