時(shí)間:2023-03-17 18:05:50
序論:在您撰寫(xiě)語(yǔ)音識(shí)別技術(shù)時(shí),參考他人的優(yōu)秀作品可以開(kāi)闊視野,小編為您整理的7篇范文,希望這些建議能夠激發(fā)您的創(chuàng)作熱情,引導(dǎo)您走向新的創(chuàng)作高度。
摘要:本文簡(jiǎn)要介紹了語(yǔ)音識(shí)別技術(shù)理論基礎(chǔ)及分類(lèi)方式,所采用的關(guān)鍵技術(shù)以及所面臨的困難與挑戰(zhàn),最后討論了語(yǔ)音識(shí)別技術(shù)的發(fā)展前景和應(yīng)用。
關(guān)鍵詞:語(yǔ)音識(shí)別;特征提取;模式匹配;模型訓(xùn)練
Abstract:This text briefly introduces the theoretical basis of the speech-identification technology,its mode of classification,the adopted key technique and the difficulties and challenges it have to face.Then,the developing prospect ion and application of the speech-identification technology are discussed in the last part.
Keywords:Speech identification;Character Pick-up;Mode matching;Model training
一、語(yǔ)音識(shí)別技術(shù)的理論基礎(chǔ)
語(yǔ)音識(shí)別技術(shù):是讓機(jī)器通過(guò)識(shí)別和理解過(guò)程把語(yǔ)音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的高級(jí)技術(shù)。語(yǔ)音識(shí)別以語(yǔ)音為研究對(duì)象,它是語(yǔ)音信號(hào)處理的一個(gè)重要研究方向,是模式識(shí)別的一個(gè)分支,涉及到生理學(xué)、心理學(xué)、語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)以及信號(hào)處理等諸多領(lǐng)域,甚至還涉及到人的體態(tài)語(yǔ)言(如人在說(shuō)話時(shí)的表情、手勢(shì)等行為動(dòng)作可幫助對(duì)方理解),其最終目標(biāo)是實(shí)現(xiàn)人與機(jī)器進(jìn)行自然語(yǔ)言通信。
不同的語(yǔ)音識(shí)別系統(tǒng),雖然具體實(shí)現(xiàn)細(xì)節(jié)有所不同,但所采用的基本技術(shù)相似,一個(gè)典型語(yǔ)音識(shí)別系統(tǒng)主要包括特征提取技術(shù)、模式匹配準(zhǔn)則及模型訓(xùn)練技術(shù)三個(gè)方面。此外,還涉及到語(yǔ)音識(shí)別單元的選取。
(一) 語(yǔ)音識(shí)別單元的選取
選擇識(shí)別單元是語(yǔ)音識(shí)別研究的第一步。語(yǔ)音識(shí)別單元有單詞(句)、音節(jié)和音素三種,具體選擇哪一種,由具體的研究任務(wù)決定。
單詞(句)單元廣泛應(yīng)用于中小詞匯語(yǔ)音識(shí)別系統(tǒng),但不適合大詞匯系統(tǒng),原因在于模型庫(kù)太龐大,訓(xùn)練模型任務(wù)繁重,模型匹配算法復(fù)雜,難以滿足實(shí)時(shí)性要求。
音節(jié)單元多見(jiàn)于漢語(yǔ)語(yǔ)音識(shí)別,主要因?yàn)闈h語(yǔ)是單音節(jié)結(jié)構(gòu)的語(yǔ)言,而英語(yǔ)是多音節(jié),并且漢語(yǔ)雖然有大約1300個(gè)音節(jié),但若不考慮聲調(diào),約有408個(gè)無(wú)調(diào)音節(jié),數(shù)量相對(duì)較少。因此,對(duì)于中、大詞匯量漢語(yǔ)語(yǔ)音識(shí)別系統(tǒng)來(lái)說(shuō),以音節(jié)為識(shí)別單元基本是可行的。
音素單元以前多見(jiàn)于英語(yǔ)語(yǔ)音識(shí)別的研究中,但目前中、大詞匯量漢語(yǔ)語(yǔ)音識(shí)別系統(tǒng)也在越來(lái)越多地采用。原因在于漢語(yǔ)音節(jié)僅由聲母(包括零聲母有22個(gè))和韻母(共有28個(gè))構(gòu)成,且聲韻母聲學(xué)特性相差很大。實(shí)際應(yīng)用中常把聲母依后續(xù)韻母的不同而構(gòu)成細(xì)化聲母,這樣雖然增加了模型數(shù)目,但提高了易混淆音節(jié)的區(qū)分能力。由于協(xié)同發(fā)音的影響,音素單元不穩(wěn)定,所以如何獲得穩(wěn)定的音素單元,還有待研究。
(二) 特征參數(shù)提取技術(shù)
語(yǔ)音信號(hào)中含有豐富的信息,但如何從中提取出對(duì)語(yǔ)音識(shí)別有用的信息呢?特征提取就是完成這項(xiàng)工作,它對(duì)語(yǔ)音信號(hào)進(jìn)行分析處理,去除對(duì)語(yǔ)音識(shí)別無(wú)關(guān)緊要的冗余信息,獲得影響語(yǔ)音識(shí)別的重要信息。對(duì)于非特定人語(yǔ)音識(shí)別來(lái)講,希望特征參數(shù)盡可能多的反映語(yǔ)義信息,盡量減少說(shuō)話人的個(gè)人信息(對(duì)特定人語(yǔ)音識(shí)別來(lái)講,則相反)。從信息論角度講,這是信息壓縮的過(guò)程。
線性預(yù)測(cè)(LP)分析技術(shù)是目前應(yīng)用廣泛的特征參數(shù)提取技術(shù),許多成功的應(yīng)用系統(tǒng)都采用基于LP技術(shù)提取的倒譜參數(shù)。但線性預(yù)測(cè)模型是純數(shù)學(xué)模型,沒(méi)有考慮人類(lèi)聽(tīng)覺(jué)系統(tǒng)對(duì)語(yǔ)音的處理特點(diǎn)。
Mel參數(shù)和基于感知線性預(yù)測(cè)(PLP)分析提取的感知線性預(yù)測(cè)倒譜,在一定程度上模擬了人耳對(duì)語(yǔ)音的處理特點(diǎn),應(yīng)用了人耳聽(tīng)覺(jué)感知方面的一些研究成果。實(shí)驗(yàn)證明,采用這種技術(shù),語(yǔ)音識(shí)別系統(tǒng)的性能有一定提高。
也有研究者嘗試把小波分析技術(shù)應(yīng)用于特征提取,但目前性能難以與上述技術(shù)相比,有待進(jìn)一步研究。
(三)模式匹配及模型訓(xùn)練技術(shù)
模型訓(xùn)練是指按照一定的準(zhǔn)則,從大量已知模式中獲取表征該模式本質(zhì)特征的模型參數(shù),而模式匹配則是根據(jù)一定準(zhǔn)則,使未知模式與模型庫(kù)中的某一個(gè)模型獲得最佳匹配。
語(yǔ)音識(shí)別所應(yīng)用的模式匹配和模型訓(xùn)練技術(shù)主要有動(dòng)態(tài)時(shí)間歸正技術(shù)(DTW)、隱馬爾可夫模型(HMM)和人工神經(jīng)元網(wǎng)絡(luò)(ANN)。
DTW是較早的一種模式匹配和模型訓(xùn)練技術(shù),它應(yīng)用動(dòng)態(tài)規(guī)劃方法成功解決了語(yǔ)音信號(hào)特征參數(shù)序列比較時(shí)時(shí)長(zhǎng)不等的難題,在孤立詞語(yǔ)音識(shí)別中獲得了良好性能。但因其不適合連續(xù)語(yǔ)音大詞匯量語(yǔ)音識(shí)別系統(tǒng),目前已被HMM模型和ANN替代。
HMM模型是語(yǔ)音信號(hào)時(shí)變特征的有參表示法。它由相互關(guān)聯(lián)的兩個(gè)隨機(jī)過(guò)程共同描述信號(hào)的統(tǒng)計(jì)特性,其中一個(gè)是隱蔽的(不可觀測(cè)的)具有有限狀態(tài)的Markor鏈,另一個(gè)是與Markor鏈的每一狀態(tài)相關(guān)聯(lián)的觀察矢量的隨機(jī)過(guò)程(可觀測(cè)的)。隱蔽Markor鏈的特征要靠可觀測(cè)到的信號(hào)特征揭示。這樣,語(yǔ)音等時(shí)變信號(hào)某一段的特征就由對(duì)應(yīng)狀態(tài)觀察符號(hào)的隨機(jī)過(guò)程描述,而信號(hào)隨時(shí)間的變化由隱蔽Markor鏈的轉(zhuǎn)移概率描述。模型參數(shù)包括HMM拓?fù)浣Y(jié)構(gòu)、狀態(tài)轉(zhuǎn)移概率及描述觀察符號(hào)統(tǒng)計(jì)特性的一組隨機(jī)函數(shù)。按照隨機(jī)函數(shù)的特點(diǎn),HMM模型可分為離散隱馬爾可夫模型(采用離散概率密度函數(shù),簡(jiǎn)稱DHMM)和連續(xù)隱馬爾可夫模型(采用連續(xù)概率密度函數(shù),簡(jiǎn)稱CHMM)以及半連續(xù)隱馬爾可夫模型(SCHMM,集DHMM和CHMM特點(diǎn))。一般來(lái)講,在訓(xùn)練數(shù)據(jù)足夠的,CHMM優(yōu)于DHMM和SCHMM。HMM模型的訓(xùn)練和識(shí)別都已研究出有效的算法,并不斷被完善,以增強(qiáng)HMM模型的魯棒性。
人工神經(jīng)元網(wǎng)絡(luò)在語(yǔ)音識(shí)別中的應(yīng)用是現(xiàn)在研究的又一熱點(diǎn)。ANN本質(zhì)上是一個(gè)自適應(yīng)非線性動(dòng)力學(xué)系統(tǒng),模擬了人類(lèi)神經(jīng)元活動(dòng)的原理,具有自學(xué)、聯(lián)想、對(duì)比、推理和概括能力。這些能力是HMM模型不具備的,但ANN又不個(gè)有HMM模型的動(dòng)態(tài)時(shí)間歸正性能。因此,現(xiàn)在已有人研究如何把二者的優(yōu)點(diǎn)有機(jī)結(jié)合起來(lái),從而提高整個(gè)模型的魯棒性。 二、語(yǔ)音識(shí)別的困難與對(duì)策
目前,語(yǔ)音識(shí)別方面的困難主要表現(xiàn)在:
(一)語(yǔ)音識(shí)別系統(tǒng)的適應(yīng)性差,主要體現(xiàn)在對(duì)環(huán)境依賴性強(qiáng),即在某種環(huán)境下采集到的語(yǔ)音訓(xùn)練系統(tǒng)只能在這種環(huán)境下應(yīng)用,否則系統(tǒng)性能將急劇下降;另外一個(gè)問(wèn)題是對(duì)用戶的錯(cuò)誤輸入不能正確響應(yīng),使用不方便。
(二)高噪聲環(huán)境下語(yǔ)音識(shí)別進(jìn)展困難,因?yàn)榇藭r(shí)人的發(fā)音變化很大,像聲音變高,語(yǔ)速變慢,音調(diào)及共振峰變化等等,這就是所謂Lombard效應(yīng),必須尋找新的信號(hào)分析處理方法。
(三)語(yǔ)言學(xué)、生理學(xué)、心理學(xué)方面的研究成果已有不少,但如何把這些知識(shí)量化、建模并用于語(yǔ)音識(shí)別,還需研究。而語(yǔ)言模型、語(yǔ)法及詞法模型在中、大詞匯量連續(xù)語(yǔ)音識(shí)別中是非常重要的。
(四)我們對(duì)人類(lèi)的聽(tīng)覺(jué)理解、知識(shí)積累和學(xué)習(xí)機(jī)制以及大腦神經(jīng)系統(tǒng)的控制機(jī)理等分面的認(rèn)識(shí)還很不清楚;其次,把這方面的現(xiàn)有成果用于語(yǔ)音識(shí)別,還有一個(gè)艱難的過(guò)程。
(五)語(yǔ)音識(shí)別系統(tǒng)從實(shí)驗(yàn)室演示系統(tǒng)到商品的轉(zhuǎn)化過(guò)程中還有許多具體問(wèn)題需要解決,識(shí)別速度、拒識(shí)問(wèn)題以及關(guān)鍵詞(句)檢測(cè)技術(shù)等等技術(shù)細(xì)節(jié)要解決。
三、語(yǔ)音識(shí)別技術(shù)的前景和應(yīng)用
語(yǔ)音識(shí)別技術(shù)發(fā)展到今天,特別是中小詞匯量非特定人語(yǔ)音識(shí)別系統(tǒng)識(shí)別精度已經(jīng)大于98%,對(duì)特定人語(yǔ)音識(shí)別系統(tǒng)的識(shí)別精度就更高。這些技術(shù)已經(jīng)能夠滿足通常應(yīng)用的要求。由于大規(guī)模集成電路技術(shù)的發(fā)展,這些復(fù)雜的語(yǔ)音識(shí)別系統(tǒng)也已經(jīng)完全可以制成專(zhuān)用芯片,大量生產(chǎn)。在西方經(jīng)濟(jì)發(fā)達(dá)國(guó)家,大量的語(yǔ)音識(shí)別產(chǎn)品已經(jīng)進(jìn)入市場(chǎng)和服務(wù)領(lǐng)域。一些用戶交機(jī)、電話機(jī)、手機(jī)已經(jīng)包含了語(yǔ)音識(shí)別撥號(hào)功能,還有語(yǔ)音記事本、語(yǔ)音智能玩具等產(chǎn)品也包括語(yǔ)音識(shí)別與語(yǔ)音合成功能。人們可以通過(guò)電話網(wǎng)絡(luò)用語(yǔ)音識(shí)別口語(yǔ)對(duì)話系統(tǒng)查詢有關(guān)的機(jī)票、旅游、銀行信息,并且取得很好的結(jié)果。
語(yǔ)音識(shí)別是一門(mén)交叉學(xué)科,語(yǔ)音識(shí)別正逐步成為信息技術(shù)中人機(jī)接口的關(guān)鍵技術(shù),語(yǔ)音識(shí)別技術(shù)與語(yǔ)音合成技術(shù)結(jié)合使人們能夠甩掉鍵盤(pán),通過(guò)語(yǔ)音命令進(jìn)行操作。語(yǔ)音技術(shù)的應(yīng)用已經(jīng)成為一個(gè)具有競(jìng)爭(zhēng)性的新興高技術(shù)產(chǎn)業(yè)。
參考文獻(xiàn)
[1]科大訊飛語(yǔ)音識(shí)別技術(shù)專(zhuān)欄. 語(yǔ)音識(shí)別產(chǎn)業(yè)的新發(fā)展.企業(yè)專(zhuān)欄.通訊世界,2007.2:(總l12期)
[2]任天平,門(mén)茂深.語(yǔ)音識(shí)別技術(shù)應(yīng)用的進(jìn)展.科技廣場(chǎng).河南科技,2005.2:19-20
[3]俞鐵城.科大訊飛語(yǔ)音識(shí)別技術(shù)專(zhuān)欄.語(yǔ)音識(shí)別的發(fā)展現(xiàn)狀.企業(yè)專(zhuān)欄.通訊世界,2006.2 (總122期)
[4]陳尚勤等.近代語(yǔ)音識(shí)別.西安:電子科技大學(xué)出版社,1991
關(guān)鍵詞:語(yǔ)音識(shí)別 應(yīng)用領(lǐng)域 熱點(diǎn) 難點(diǎn)
中圖分類(lèi)號(hào):TN912 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-3973 (2010) 03-062-02
1應(yīng)用領(lǐng)域
如今,一些語(yǔ)音識(shí)別的應(yīng)用已經(jīng)應(yīng)用到實(shí)際生活中,如IBM的Viavoice、Microsoft的Speech SDK、Dragon公司的Dragon Dictate系統(tǒng)等。語(yǔ)音識(shí)別的應(yīng)用領(lǐng)域非常廣泛,幾乎涉及到日常生活的方方面面。如語(yǔ)音撥號(hào)系統(tǒng)、、家庭服務(wù)、訂票系統(tǒng)、聲控智能玩具、醫(yī)療服務(wù)、銀行服務(wù)、聽(tīng)寫(xiě)機(jī)、計(jì)算機(jī)控制、工業(yè)控制、語(yǔ)音通信系統(tǒng)等。預(yù)計(jì)在不遠(yuǎn)的將來(lái),語(yǔ)音識(shí)別技術(shù)將在工業(yè)、家電、通信、、醫(yī)療、家庭服務(wù)等各個(gè)領(lǐng)域深刻改變?nèi)祟?lèi)現(xiàn)有的日常生活方式。語(yǔ)音識(shí)別聽(tīng)寫(xiě)機(jī)在一些領(lǐng)域的應(yīng)用被美國(guó)新聞界評(píng)為1997年計(jì)算機(jī)發(fā)展十件大事之一。很多專(zhuān)家都認(rèn)為語(yǔ)音識(shí)別技術(shù)是2000年至2010年間信息技術(shù)領(lǐng)域十大重要的科技發(fā)展技術(shù)之一。
2發(fā)展歷史
語(yǔ)音識(shí)別的研究工作開(kāi)始于50年代,Bell實(shí)驗(yàn)室實(shí)現(xiàn)了第一個(gè)可識(shí)別十個(gè)英文數(shù)字的語(yǔ)音識(shí)別系統(tǒng)―Audry系統(tǒng)。但真正取得實(shí)質(zhì)性進(jìn)展,并將其作為一個(gè)重要的課題開(kāi)展研究則是在60年代末70年代初。60年代,提出了動(dòng)態(tài)規(guī)劃(DP)和線性預(yù)測(cè)分析技術(shù)(LP),其中后者較好地解決了語(yǔ)音信號(hào)產(chǎn)生模型的問(wèn)題,極大地促進(jìn)了語(yǔ)音識(shí)別的發(fā)展。70年代,動(dòng)態(tài)時(shí)間歸正技術(shù)(DTW)解決了語(yǔ)音特征不等長(zhǎng)匹配問(wèn)題,對(duì)特定人孤立詞語(yǔ)音識(shí)別十分有效,在語(yǔ)音識(shí)別領(lǐng)域取得了突破。在此期間還提出了矢量量化(VQ)和隱馬爾可夫模型(HMM)理論。
80年代語(yǔ)音識(shí)別研究進(jìn)一步深入,HMM模型和人工神經(jīng)網(wǎng)絡(luò)(ANN)在語(yǔ)音識(shí)別中成功應(yīng)用。1988年,FULEE Kai等用VQ/I-IMM方法實(shí)現(xiàn)了997個(gè)詞匯的非特定人連續(xù)語(yǔ)音識(shí)別系統(tǒng)SPHINX。這是世界上第1個(gè)高性能的非特定人、大詞匯量、連續(xù)語(yǔ)音識(shí)別系統(tǒng)。人們終于在實(shí)驗(yàn)室突破了大詞匯量、連續(xù)語(yǔ)音和非特定人這三大障礙,并以此確定了統(tǒng)計(jì)方法和模型在語(yǔ)音識(shí)別和語(yǔ)言處理中的主流地位。使得借助人工智能中的啟發(fā)式搜索和語(yǔ)音模型自身的特點(diǎn),高效、快捷的算法使得建立實(shí)時(shí)的連續(xù)語(yǔ)音識(shí)別系統(tǒng)成為可能。
90年代,人們開(kāi)始進(jìn)一步研究語(yǔ)音識(shí)別與自然語(yǔ)言處理的結(jié)合,逐步發(fā)展到基于自然口語(yǔ)識(shí)別和理解的人機(jī)對(duì)話系統(tǒng)。人工神經(jīng)元網(wǎng)絡(luò)(ANN)也開(kāi)始應(yīng)用于語(yǔ)音識(shí)別,它和HMM模型建立的語(yǔ)音識(shí)別系統(tǒng)性能相當(dāng),在很多系統(tǒng)中還被結(jié)合在一起使用以提高識(shí)別率及系統(tǒng)的魯棒性。小波分析也開(kāi)始用于特征提取,但目前性能不理想,其研究還在進(jìn)一步深入中。
現(xiàn)在語(yǔ)音識(shí)別系統(tǒng)已經(jīng)開(kāi)始從實(shí)驗(yàn)室走向?qū)嵱?出現(xiàn)了比較成熟的已推向市場(chǎng)的產(chǎn)品。許多發(fā)達(dá)國(guó)家如美國(guó)、日本、韓國(guó)以及IBM、Apple、Microsoft、AT&T等著名公司都為語(yǔ)音識(shí)別系統(tǒng)的實(shí)用化開(kāi)發(fā)研究投以巨資。
3研究的熱點(diǎn)與難點(diǎn)
目前語(yǔ)音識(shí)別領(lǐng)域的研究熱點(diǎn)包括:穩(wěn)健語(yǔ)音識(shí)別(識(shí)別的魯棒性)、語(yǔ)音輸入設(shè)備研究 、聲學(xué)HMM模型的細(xì)化、說(shuō)話人自適應(yīng)技術(shù)、大詞匯量關(guān)鍵詞識(shí)別、高效的識(shí)別(搜索)算法研究 、可信度評(píng)測(cè)算法研究、ANN的應(yīng)用、語(yǔ)言模型及深層次的自然語(yǔ)言理解。
目前研究的難點(diǎn)主要表現(xiàn)在:(1)語(yǔ)音識(shí)別系統(tǒng)的適應(yīng)性差。主要體現(xiàn)在對(duì)環(huán)境依賴性強(qiáng)。(2)高噪聲環(huán)境下語(yǔ)音識(shí)別進(jìn)展困難,因?yàn)榇藭r(shí)人的發(fā)音變化很大,像聲音變高,語(yǔ)速變慢,音調(diào)及共振峰變化等等,必須尋找新的信號(hào)分析處理方法。(3)如何把語(yǔ)言學(xué)、生理學(xué)、心理學(xué)方面知識(shí)量化、建模并有效用于語(yǔ)音識(shí)別,目前也是一個(gè)難點(diǎn)。(4)由于我們對(duì)人類(lèi)的聽(tīng)覺(jué)理解、知識(shí)積累和學(xué)習(xí)機(jī)制以及大腦神經(jīng)系統(tǒng)的控制機(jī)理等方面的認(rèn)識(shí)還很不清楚,這必將阻礙語(yǔ)音識(shí)別的進(jìn)一步發(fā)展。
4語(yǔ)音識(shí)別系統(tǒng)
一個(gè)典型的語(yǔ)音識(shí)別系統(tǒng)如圖所示:
輸入的語(yǔ)言信號(hào)首先要進(jìn)行反混疊濾波、采樣、A/D轉(zhuǎn)換等過(guò)程進(jìn)行數(shù)字化,之后要進(jìn)行預(yù)處理,包括預(yù)加重、加窗和分幀、端點(diǎn)檢測(cè)等。我們稱之為對(duì)語(yǔ)音信號(hào)進(jìn)行預(yù)處理。
語(yǔ)音信號(hào)的特征參數(shù)主要有:短時(shí)能量En,反映語(yǔ)音振幅或能量隨著時(shí)間緩慢變化的規(guī)律;短時(shí)平均過(guò)零率Zn,對(duì)于離散信號(hào)來(lái)講,簡(jiǎn)單的說(shuō)就是樣本改變符號(hào)的次數(shù),可以粗略分辨清音和濁音;短時(shí)自相關(guān)函數(shù);經(jīng)過(guò)FFT或LPC運(yùn)算得到的功率譜,再經(jīng)過(guò)對(duì)數(shù)運(yùn)算和傅里葉反變換以后得到的倒譜參數(shù);根據(jù)人耳聽(tīng)覺(jué)特性變換的美爾(MEL);線性預(yù)測(cè)系數(shù)等。通常識(shí)別參數(shù)可選擇上面的某一種或幾種的組合。
語(yǔ)音識(shí)別是語(yǔ)音識(shí)別系統(tǒng)最核心的部分。包括語(yǔ)音的聲學(xué)模型(訓(xùn)練學(xué)習(xí))與模式匹配(識(shí)別算法)以及相應(yīng)的語(yǔ)言模型與語(yǔ)言處理2大部分。聲學(xué)模型用于參數(shù)匹配,通常在模型訓(xùn)練階段按照一定的準(zhǔn)則,由用語(yǔ)音特征參數(shù)表征的大量已知模式中通過(guò)學(xué)習(xí)算法來(lái)獲取代表該模式本質(zhì)特征的模型參數(shù)而產(chǎn)生。在識(shí)別(模式匹配)時(shí)將輸入的語(yǔ)音特征同聲學(xué)模型(模式)根據(jù)一定準(zhǔn)則進(jìn)行匹配與比較,使未知模式與模型庫(kù)中的某一個(gè)模型獲得最佳匹配以得到最佳的識(shí)別結(jié)果。語(yǔ)言模型一般指在匹配搜索時(shí)用于字詞和路徑約束的語(yǔ)言規(guī)則,它包括由識(shí)別語(yǔ)音命令構(gòu)成的語(yǔ)法網(wǎng)絡(luò)或由統(tǒng)計(jì)方法構(gòu)成的語(yǔ)言模型,語(yǔ)言處理則可以進(jìn)行語(yǔ)法、語(yǔ)義分析。
聲學(xué)模型是語(yǔ)音識(shí)別系統(tǒng)中最關(guān)鍵的一部分。目前最常用也最有效的幾種聲學(xué)識(shí)別模型包括動(dòng)態(tài)時(shí)間歸整模型(DTW)、隱馬爾可夫模型(HMM)和人工神經(jīng)網(wǎng)絡(luò)模型(ANN)等。
DTW是較早的一種模式匹配和模型訓(xùn)練技術(shù),它把整個(gè)單詞作為識(shí)別單元,在訓(xùn)練階段將詞匯表中每個(gè)詞的特征矢量序列作為模板存入模板庫(kù),在識(shí)別階段將待識(shí)別語(yǔ)音的特征矢量序列依次與庫(kù)中的每個(gè)模板進(jìn)行相似度比較,將相似度最高者作為識(shí)別結(jié)果輸出。DTW應(yīng)用動(dòng)態(tài)規(guī)劃方法成功解決了語(yǔ)音信號(hào)特征參數(shù)序列比較時(shí)時(shí)長(zhǎng)不等的難題,在小詞匯量、孤立詞語(yǔ)音識(shí)別中獲得了良好性能。但因其不適合連續(xù)語(yǔ)音大詞匯量語(yǔ)音識(shí)別系統(tǒng),目前已逐漸被HMM和ANN模型替代。
HMM模型是語(yǔ)音信號(hào)時(shí)變特征的有參表示法。它由相互關(guān)聯(lián)的兩個(gè)隨機(jī)過(guò)程共同描述信號(hào)的統(tǒng)計(jì)特性,其中一個(gè)是隱蔽的(不可觀測(cè)的)具有有限狀態(tài)的Markor鏈,另一個(gè)是與Markor鏈的每一狀態(tài)相關(guān)聯(lián)的觀察矢量的隨機(jī)過(guò)程(可觀測(cè)的)。HMM很好的模擬了人得語(yǔ)言過(guò)程,目前應(yīng)用十分廣泛。HMM模型的模型參數(shù)包括HMM拓?fù)浣Y(jié)構(gòu)(狀態(tài)數(shù)目N、狀態(tài)之間的轉(zhuǎn)移方向等)、每個(gè)狀態(tài)可以觀察到的符號(hào)數(shù)M(符號(hào)集合O)、狀態(tài)轉(zhuǎn)移概率A及描述觀察符號(hào)統(tǒng)計(jì)特性的一組隨機(jī)函數(shù),包括觀察符號(hào)的概率分布B和初始狀態(tài)概率分布 ,因此一個(gè)HMM模型可以由{N,M,A,B, }來(lái)確定,對(duì)詞匯表中的每一個(gè)詞都要建立相應(yīng)的HMM模型。
模型參數(shù)得到后可以用Viterbi算法來(lái)確定與觀察序列對(duì)應(yīng)的最佳的狀態(tài)序列。建好模型后,在識(shí)別階段就是要計(jì)算每個(gè)模型產(chǎn)生觀察符號(hào)序列的輸出概率,輸出概率最大的模型所表示的詞就是我們的識(shí)別結(jié)果。這個(gè)過(guò)程計(jì)算量很大,有人提出了前向-后向算法,大大減少了計(jì)算量,已經(jīng)被廣泛采用,關(guān)于它們的各種改進(jìn)方法也被大量提出。
ANN在語(yǔ)音識(shí)別中的應(yīng)用是現(xiàn)在研究的又一熱點(diǎn)。ANN本質(zhì)上是一個(gè)自適應(yīng)非線性動(dòng)力學(xué)系統(tǒng),是由結(jié)點(diǎn)互連組成的計(jì)算網(wǎng)絡(luò),模擬了人類(lèi)大腦神經(jīng)元活動(dòng)的基本原理,具有自學(xué)習(xí)能力、記憶、聯(lián)想、推理、概括能力和快速并行實(shí)現(xiàn)的特點(diǎn),同時(shí)還具備自組織、自適應(yīng)的功能。這些能力是HMM模型不具備的,可用于處理一些環(huán)境信息十分復(fù)雜,背景知識(shí)不清楚,推理規(guī)則不明確的問(wèn)題,允許樣品有較大的缺損、畸變,因此對(duì)于噪聲環(huán)境下非特定人的語(yǔ)音識(shí)別問(wèn)題來(lái)說(shuō)是一種很好的解決方案。目前大部分應(yīng)用神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別系統(tǒng)都采用了BP網(wǎng)并取得了較好的識(shí)別效果。
將ANN與HMM結(jié)合分別利用各自優(yōu)點(diǎn)進(jìn)行識(shí)別將是今后的一條研究途徑。二者結(jié)合的混合語(yǔ)音識(shí)別方法的研究開(kāi)始于上世紀(jì)90年代,目前已有一些方法將ANN輔助HMM進(jìn)行計(jì)算和學(xué)習(xí)概率參數(shù)。
語(yǔ)言模型主要分為規(guī)則模型和統(tǒng)計(jì)模型兩種。統(tǒng)計(jì)語(yǔ)言模型是用概率統(tǒng)計(jì)的方法來(lái)揭示語(yǔ)言單位內(nèi)在的統(tǒng)計(jì)規(guī)律,其中N-Gram簡(jiǎn)單有效,被廣泛使用。N-Gram模型基于這樣一種假設(shè):第n個(gè)詞的出現(xiàn)只與前面N-1個(gè)詞相關(guān),而與其它任何詞都不相關(guān),整句的概率就是各個(gè)詞出現(xiàn)概率的乘積。這些概率可以通過(guò)直接從語(yǔ)料庫(kù)中統(tǒng)計(jì)N個(gè)詞同時(shí)出現(xiàn)的次數(shù)得到。常用的是二元的Bi-Gram和三元的Tri-Gram。
5總結(jié)
盡管語(yǔ)音識(shí)別技術(shù)已經(jīng)取得了長(zhǎng)足的進(jìn)步,而語(yǔ)音識(shí)別系統(tǒng)也層出不窮,不斷的改變?nèi)祟?lèi)現(xiàn)有的生活方式,但其比較成功的應(yīng)用也只是在某些特定的領(lǐng)域,談不上大規(guī)模廣泛的應(yīng)用。只有建立從聲學(xué)、語(yǔ)音學(xué)到語(yǔ)言學(xué)的知識(shí)為基礎(chǔ)、以信息論、模式識(shí)別數(shù)理統(tǒng)計(jì)和人工智能為主要實(shí)現(xiàn)手段的語(yǔ)音處理機(jī)制,把整個(gè)語(yǔ)音識(shí)別過(guò)程從系統(tǒng)工程的高度進(jìn)行分析構(gòu)建,才有可能獲得能與人類(lèi)相比的高性能的、完整的計(jì)算機(jī)語(yǔ)音識(shí)別系統(tǒng)。
參考文獻(xiàn):
[1]易克初,田斌.付強(qiáng).語(yǔ)音信號(hào)處理[M].國(guó)防工業(yè)出版社,2000.
[2]胡航.語(yǔ)音信號(hào)處理[M].哈爾濱工業(yè)大學(xué)出版社,2000.
[3]趙力.語(yǔ)音信號(hào)處理[M].機(jī)械工業(yè)出版社,2003.
【關(guān)鍵詞】語(yǔ)音識(shí)別 語(yǔ)言模型 聲學(xué)模型 人工智能
使用智能手機(jī)的朋友們都會(huì)對(duì)語(yǔ)音助手產(chǎn)生極大的興趣,不管是微軟的Cortana,還是蘋(píng)果的Siri,都是將語(yǔ)音識(shí)別融入現(xiàn)代技術(shù)的典范。Z音識(shí)別是解決機(jī)器“聽(tīng)懂”人類(lèi)語(yǔ)言的一項(xiàng)技術(shù),也是人工智能重要部分。
語(yǔ)音識(shí)別技術(shù)(speech recognition),也被稱為自動(dòng)語(yǔ)音識(shí)別 (ASR),其目標(biāo)是將人類(lèi)的語(yǔ)音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入,例如按鍵、二進(jìn)制編碼或者字符序列。與說(shuō)話人識(shí)別及說(shuō)話人確認(rèn)不同,后者嘗試識(shí)別或確認(rèn)發(fā)出語(yǔ)音的說(shuō)話人而前者的目標(biāo)是語(yǔ)音中所包含的詞匯內(nèi)容。
探究語(yǔ)音識(shí)別技術(shù)的框架、應(yīng)用與發(fā)展有利于全面了解語(yǔ)音識(shí)別。本文將從語(yǔ)音識(shí)別簡(jiǎn)介、主流語(yǔ)言識(shí)別框架以及語(yǔ)言識(shí)別近年來(lái)的發(fā)展三個(gè)方面探究語(yǔ)音識(shí)別。
1 語(yǔ)音識(shí)別簡(jiǎn)介
1.1 傳統(tǒng)語(yǔ)言識(shí)別技術(shù)發(fā)展
對(duì)語(yǔ)音識(shí)別技術(shù)的研究可以追述到上世紀(jì)五十年代,1952年貝爾研究所Davis等人研究成功了世界上第一個(gè)能識(shí)別10個(gè)英文數(shù)字發(fā)音的實(shí)驗(yàn)系統(tǒng),開(kāi)創(chuàng)了語(yǔ)音識(shí)別的先河。上世紀(jì)六十年代,人工神經(jīng)網(wǎng)絡(luò)被引入了語(yǔ)音識(shí)別。上世紀(jì)七十年代以后,大規(guī)模的語(yǔ)音識(shí)別在小詞匯量、孤立詞的識(shí)別方面取得了實(shí)質(zhì)性的進(jìn)展。傳統(tǒng)語(yǔ)音識(shí)別技術(shù)最大突破是隱式馬爾可夫模型的應(yīng)用,這一模型極大提高了語(yǔ)音識(shí)別的準(zhǔn)確率[1]。
1.2 語(yǔ)言識(shí)別的應(yīng)用
作為智能計(jì)算機(jī)研究的主導(dǎo)方向和人機(jī)語(yǔ)音通信的關(guān)鍵技術(shù),語(yǔ)音識(shí)別一直受到各國(guó)科學(xué)界的廣泛關(guān)注。如今,隨著語(yǔ)音識(shí)別技術(shù)的研究的突破,其對(duì)計(jì)算機(jī)發(fā)展和社會(huì)生活的重要性日益凸現(xiàn)出來(lái)。在現(xiàn)實(shí)生活中,語(yǔ)音識(shí)別技術(shù)的應(yīng)用相當(dāng)廣泛,它改變了人與計(jì)算機(jī)交互的方式,使計(jì)算機(jī)更加智能。和鍵盤(pán)輸入相比,語(yǔ)音識(shí)別更符合人的日常習(xí)慣;使用語(yǔ)言控制系統(tǒng),相比手動(dòng)控制,語(yǔ)音識(shí)別更加方便快捷,可以用在工業(yè)控制、智能家電等設(shè)備;通過(guò)智能對(duì)話查詢系統(tǒng),企業(yè)可以根據(jù)用戶的語(yǔ)音進(jìn)行操作,為用戶提供自然、友好的數(shù)據(jù)檢索服務(wù)。
2 語(yǔ)音識(shí)別框架
目前主流的語(yǔ)音識(shí)別框架可以分為以下幾個(gè)模塊:信號(hào)處理,特征提取,聲學(xué)模型,語(yǔ)言模型,解碼器。
2.1 信號(hào)處理
信號(hào)處理模塊是對(duì)語(yǔ)音文件進(jìn)行預(yù)處理。聲音是一種縱波,在識(shí)別語(yǔ)音時(shí),輸入為WMV,MP3等格式的文件會(huì)被轉(zhuǎn)換成非壓縮的純波文件wav格式。然后在進(jìn)行語(yǔ)音識(shí)別前,需要檢測(cè)該文件中的語(yǔ)音信號(hào),該技術(shù)被稱之為語(yǔ)音活性檢測(cè)[2]。使用語(yǔ)言活性檢測(cè)技術(shù)可以有效降低噪音,去除非語(yǔ)音片段,提高語(yǔ)音識(shí)別的準(zhǔn)確率。經(jīng)典的語(yǔ)音活性檢測(cè)算法由如下步驟組成:
(1)使用spectral subtraction等方法對(duì)語(yǔ)言序列進(jìn)行降噪。(2)將輸入信號(hào)的分成區(qū)塊并提取特征。(3)設(shè)計(jì)分類(lèi)器判斷該區(qū)塊是否為語(yǔ)音信號(hào)。
2.2 特征提取
特征提取目的是提取出語(yǔ)音文件的特征,以一定的數(shù)學(xué)方式表達(dá),從而可以參與到后續(xù)模塊處理中。在這一模塊,首先要將連續(xù)的聲音分成離散的幀。每一幀的時(shí)間既要足夠長(zhǎng),使得我們能夠判斷它屬于哪個(gè)聲韻母的信息,若過(guò)短則包含信息過(guò)少;每一幀時(shí)間也要盡量短,語(yǔ)音信號(hào)需要足夠平穩(wěn),能夠通過(guò)短時(shí)傅里葉分析進(jìn)行特征提取,過(guò)長(zhǎng)則會(huì)使信號(hào)不夠平穩(wěn)。分幀時(shí)使用如下改進(jìn)技術(shù)可以有效提高識(shí)別準(zhǔn)確率:相鄰的兩幀有所重疊減少分割誤差,將與臨近幀之間的差分作為額外特征,將多個(gè)語(yǔ)音幀堆疊起來(lái)。通過(guò)分幀處理,連續(xù)的語(yǔ)音被分為離散的小段,但還缺乏數(shù)學(xué)上的描述能力,因此需要對(duì)波形作特征提取。常見(jiàn)的方法是根據(jù)人耳的生理特征,把每一幀波形變換成一個(gè)多維向量。因此,這些向量包含了這些語(yǔ)音的內(nèi)容信息。該過(guò)程被稱為聲學(xué)特征提取,常見(jiàn)的聲學(xué)特征有MFCC、CPE、LPC等。
MFCC是目前最常用、最基本的聲學(xué)特征,提取MFCC特征可以分為如下四個(gè)步驟:首先對(duì)每一幀進(jìn)行傅里葉變換,取得每一幀的頻譜。再把頻譜與圖1中每個(gè)三角形相乘并積分,求出頻譜在每一個(gè)三角形下的能量,這樣處理可以減少數(shù)據(jù)量,并模仿人耳在低頻處分辨率高的特性。然后取上一步得到結(jié)果的對(duì)數(shù),這可以放大低能量處的能量差異。最后對(duì)得到的對(duì)數(shù)進(jìn)行離散余弦變換,并保留前12~20個(gè)點(diǎn)進(jìn)一步壓縮數(shù)據(jù)。通過(guò)特征提取,聲音序列就被轉(zhuǎn)換為有特征向量組成的矩陣。
2.3 聲學(xué)模型
聲學(xué)模型是語(yǔ)音識(shí)別中最重要的組成部分之一,其用于語(yǔ)音到音節(jié)概率的計(jì)算。目前主流的方法多數(shù)采用隱馬爾科夫模型,隱馬爾可夫模型的概念是一個(gè)離散時(shí)域有限狀態(tài)自動(dòng)機(jī)。
隱馬爾可夫模型HMM如圖2所示,是指這一馬爾可夫模型的內(nèi)部狀態(tài)x1,x2,x3外界不可見(jiàn),外界只能看到各個(gè)時(shí)刻的輸出值y1,y2,y3。對(duì)語(yǔ)音識(shí)別系統(tǒng),輸出值通常就是從各個(gè)幀計(jì)算而得的聲學(xué)特征,輸入是由特征提取模塊提取的特征。用HMM刻畫(huà)語(yǔ)音信號(hào)需作出兩個(gè)假設(shè),一是內(nèi)部狀態(tài)的轉(zhuǎn)移只與上一狀態(tài)有關(guān),另一是輸出值Y只與當(dāng)前狀態(tài)X(或當(dāng)前的狀態(tài)轉(zhuǎn)移)有關(guān),這兩個(gè)假設(shè)大大降低了模型的復(fù)雜度。HMM的打分、解碼和訓(xùn)練相應(yīng)的算法是前向算法、維特比算法和前向后向算法。
早期的聲學(xué)模型使用矢量量化(Vector Quantification)的方法,使其性能受到VQ算法的極大影響。對(duì)于連續(xù)取值的特征應(yīng)當(dāng)采用連續(xù)的概率分布如高斯混合模型或混合拉普拉斯模型等。為了解決模型參數(shù)過(guò)多的問(wèn)題,可以使用某些聚類(lèi)方法來(lái)減小模型中的參數(shù)數(shù)量,提高模型的可訓(xùn)練性。聚類(lèi)可以在模型層次,狀態(tài)層次乃至混合高斯模型中每個(gè)混合的層次進(jìn)行。
2.4 語(yǔ)言模型
語(yǔ)言模型音節(jié)到字概率的計(jì)算。 語(yǔ)言模型主要分為規(guī)則模型和統(tǒng)計(jì)模型兩種。相比于統(tǒng)計(jì)模型,規(guī)則模型魯棒性較差,對(duì)非本質(zhì)錯(cuò)誤過(guò)于嚴(yán)苛,泛化能力較差,研究強(qiáng)度更大。因此主流語(yǔ)音識(shí)別技術(shù)多采用統(tǒng)計(jì)模型。統(tǒng)計(jì)模型采用概率統(tǒng)計(jì)的方法來(lái)揭示語(yǔ)言單位內(nèi)在的統(tǒng)計(jì)規(guī)律,其中N-Gram簡(jiǎn)單有效,被廣泛使用。
N-Gram基于如下假設(shè):第N個(gè)詞的出現(xiàn)只與前面N-1個(gè)詞相關(guān),而與其它任何詞都不相關(guān),整句的概率即為各個(gè)詞出現(xiàn)概率的乘積。詞與詞之間的概率可以直接從語(yǔ)料中統(tǒng)計(jì)N個(gè)詞同時(shí)出現(xiàn)的次數(shù)得到??紤]計(jì)算量和效果之間的平衡,N取值一般較小,常用的是二元的Bi-Gram和三元的Tri-Gram。
2.5 解碼器
解碼器是語(yǔ)音識(shí)別系統(tǒng)的核心之一,其任務(wù)是對(duì)輸入信號(hào),根據(jù)聲學(xué)、語(yǔ)言模型及詞典,尋找能夠以最大概率輸出該信號(hào)的詞串。在實(shí)踐中較多采用維特比算法[3]搜索根據(jù)聲學(xué)、語(yǔ)言模型得出的最優(yōu)詞串。
基于動(dòng)態(tài)規(guī)劃的維特比算法在每個(gè)時(shí)間點(diǎn)上的各個(gè)狀態(tài),計(jì)算解碼狀態(tài)序列對(duì)觀察序列的后驗(yàn)概率,保留概率最大的路徑,并在每個(gè)節(jié)點(diǎn)記錄下相應(yīng)的狀態(tài)信息以便最后反向獲取詞解碼序列。維特比算法在不喪失最優(yōu)解的條件下,同時(shí)解決了連續(xù)語(yǔ)音識(shí)別中HMM模型狀態(tài)序列與聲學(xué)觀察序列的非線性時(shí)間對(duì)準(zhǔn)、詞邊界檢測(cè)和詞的識(shí)別,從而使這一算法成為語(yǔ)音識(shí)別搜索的基本策略。
維特比(Viterbi)算法的時(shí)齊特性使得同一時(shí)刻的各條路徑對(duì)應(yīng)于同樣的觀察序列,因而具有可比性,Beam搜索在每一時(shí)刻只保留概率最大的前若干條路徑,大幅度的剪枝提高了搜索的效率。Viterbi-Beam算法是當(dāng)前語(yǔ)音識(shí)別搜索中最有效的算法。
3 語(yǔ)音識(shí)別技術(shù)的發(fā)展
近幾年來(lái),特別是2009年以來(lái),借助機(jī)器學(xué)習(xí)領(lǐng)域深度學(xué)習(xí)研究的發(fā)展,以及大數(shù)據(jù)語(yǔ)料的積累,語(yǔ)音識(shí)別技術(shù)得到突飛猛進(jìn)的發(fā)展。
在模型方面,傳統(tǒng)語(yǔ)音識(shí)別模型逐步被神經(jīng)網(wǎng)絡(luò)替代,使用神經(jīng)網(wǎng)絡(luò)可以更好地提取特征,擬合曲線。使用人工神經(jīng)網(wǎng)絡(luò)來(lái)提高語(yǔ)音識(shí)別性能的概念最早在80年代就提出了,但當(dāng)時(shí)高斯混合模型在大詞匯語(yǔ)音識(shí)別上表現(xiàn)得更好,因此人工神經(jīng)網(wǎng)絡(luò)并沒(méi)有進(jìn)行商業(yè)應(yīng)用。隨著相關(guān)技術(shù)的進(jìn)一步發(fā)展,微軟研究院利用深度神經(jīng)網(wǎng)絡(luò)建立了數(shù)千個(gè)音素的模型,比傳統(tǒng)方法減少了16%的相對(duì)誤差。其在建立起有超過(guò)660萬(wàn)神經(jīng)聯(lián)系的網(wǎng)絡(luò)后,將總的語(yǔ)音識(shí)別錯(cuò)誤率降低了30%,實(shí)現(xiàn)了語(yǔ)音識(shí)別巨大的突破[4]。
同時(shí)目前多數(shù)主流語(yǔ)言識(shí)別解碼器采用了基于有限狀態(tài)機(jī)的解碼網(wǎng)絡(luò),該網(wǎng)絡(luò)將語(yǔ)音模型、詞典、聲學(xué)共享音字集統(tǒng)一為大的解碼網(wǎng)絡(luò),大幅度提高了解碼速度。
在數(shù)據(jù)量上,由于移動(dòng)互聯(lián)網(wǎng)的急速發(fā)展,從多個(gè)渠道獲取的海量語(yǔ)言原料為聲學(xué)模型和語(yǔ)言模型的訓(xùn)練提供了豐富的資源,不斷提升語(yǔ)音識(shí)別的準(zhǔn)確率。
4 結(jié)語(yǔ)
語(yǔ)音是人們工作生活中最自然的交流媒介,所以語(yǔ)音識(shí)別技術(shù)在人機(jī)交互中成為非常重要的方式,語(yǔ)音識(shí)別技術(shù)具有非常廣泛的應(yīng)用領(lǐng)域和非常廣闊的市場(chǎng)前景。而隨著深度神經(jīng)網(wǎng)絡(luò)發(fā)展,硬件計(jì)算能力的提高,以及海量數(shù)據(jù)積累,語(yǔ)音識(shí)別系統(tǒng)的準(zhǔn)確率和實(shí)用性將得到持續(xù)提高。
參考文獻(xiàn):
[1]S基百科編者.語(yǔ)音識(shí)別[G/OL].維基百科,2016(20160829)[2016-08-29].
[2]維基百科編者.語(yǔ)音活性檢測(cè)[G/OL].維基百科,2016(20160629)[2016-06-29].
[3]維基百科編者.維特比算法[G/OL].維基百科,2016(20160920)[2016-09-20].
[4] Dahl G E, Yu D, Deng L, et al. Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2012, 20(1):30-42.
【關(guān)鍵詞】 語(yǔ)音識(shí)別 通話 大數(shù)據(jù) 互聯(lián)網(wǎng)
該文主要致力于解決通話中的語(yǔ)音識(shí)別技術(shù),長(zhǎng)期可推廣至QQ語(yǔ)音聊天等即時(shí)聊天軟件中,相較于目前大多數(shù)語(yǔ)音識(shí)別軟件需要手動(dòng)打開(kāi)更為主動(dòng),讓用戶感覺(jué)不到軟件的存在,將該技術(shù)深度整合到系統(tǒng)或QQ服務(wù)中在通話結(jié)束后針對(duì)通話中涉及的電話號(hào)碼、地點(diǎn)、時(shí)間等關(guān)鍵信息進(jìn)行信息的推送,大大提高了效率,并對(duì)聽(tīng)力有障礙的人士有更為重要的意義。
一、語(yǔ)音識(shí)別基本原理
語(yǔ)音識(shí)別系統(tǒng)本質(zhì)上是一種模式識(shí)別系統(tǒng),包括特征提取、模式匹配、參考模式庫(kù)等三個(gè)基本單元,未知語(yǔ)音經(jīng)過(guò)話筒變換成電信號(hào)后加在識(shí)別系統(tǒng)的輸入端,首先經(jīng)過(guò)預(yù)處理,再根據(jù)人的語(yǔ)音特點(diǎn)建立語(yǔ)音模型,對(duì)輸入的語(yǔ)音信號(hào)進(jìn)行分析,并抽取所需的特征,在此基礎(chǔ)上建立語(yǔ)音識(shí)別所需的模板,然后根據(jù)此模板的定義,通過(guò)查表就可以給出計(jì)算機(jī)的識(shí)別結(jié)果。 [1]
二、通話中語(yǔ)音識(shí)別技術(shù)
2.1技術(shù)原理:
1、基本架構(gòu):Smartalk通話系統(tǒng)基于“云之訊”開(kāi)放平臺(tái)提供的語(yǔ)音視頻通話服務(wù)和“科大訊飛”開(kāi)放平臺(tái)提供的語(yǔ)音識(shí)別服務(wù),并加以對(duì)手機(jī)GPS位置、通訊錄、社交軟件信息的分析,在“云”的輔助下對(duì)之進(jìn)行處理和交換。Smartalk架構(gòu)分為4個(gè)部分:客戶端、語(yǔ)音視頻服務(wù)、語(yǔ)音識(shí)別服務(wù)、云數(shù)據(jù)處理分析。利用“云之訊”開(kāi)放平臺(tái)提供的語(yǔ)音視頻通話服務(wù)和“科大訊飛”開(kāi)放平臺(tái)提供的語(yǔ)音識(shí)別服務(wù)可將用戶在通話中涉及的地點(diǎn)、人名、電話號(hào)碼等關(guān)鍵詞提取出來(lái)并加以分析對(duì)行程和下一步操作提供幫助。
2、基本平臺(tái):本系統(tǒng)基于APIcloud開(kāi)發(fā),兼容云端和第三方SDK,可跨平臺(tái)(Android、IOS、Windows等)使用,采用標(biāo)準(zhǔn)的c++語(yǔ)言實(shí)現(xiàn)。
2.2功能實(shí)現(xiàn):
1、基于“云之訊”開(kāi)放平臺(tái)的通話系統(tǒng):云之訊融合通訊開(kāi)放平臺(tái)為企業(yè)及個(gè)人開(kāi)發(fā)者提供各種通訊服務(wù),包括在線語(yǔ)音服務(wù)、短信服務(wù)、視頻服務(wù)、會(huì)議服務(wù)等,開(kāi)發(fā)者通過(guò)嵌入云通訊API在應(yīng)用中輕松實(shí)現(xiàn)各種通訊功能。
2、基于“科大訊飛”開(kāi)放平臺(tái)的語(yǔ)音識(shí)別系統(tǒng):。訊飛開(kāi)放平臺(tái)使用戶可通過(guò)互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng),使用任何設(shè)備方便的介入訊飛開(kāi)放平臺(tái)提供的“聽(tīng)、說(shuō)、讀、寫(xiě)”等全方位的人工智能服務(wù)。目前開(kāi)放平臺(tái)向開(kāi)發(fā)者提供語(yǔ)音合成、語(yǔ)音識(shí)別、語(yǔ)音喚醒、語(yǔ)義理解、移動(dòng)應(yīng)用分析等多項(xiàng)服務(wù)。
3、語(yǔ)音識(shí)別與云端大數(shù)據(jù)結(jié)合分析:。利用基于“云之訊”通話系統(tǒng)和“科大訊飛”語(yǔ)音識(shí)別系統(tǒng)實(shí)現(xiàn)了實(shí)時(shí)的語(yǔ)音識(shí)別,加以云端大數(shù)據(jù)的結(jié)合,和實(shí)時(shí)的分析用戶當(dāng)前的需求和問(wèn)題,及時(shí)的跟用戶產(chǎn)生交流反饋,并根據(jù)用戶長(zhǎng)期的使用時(shí)間分析智能提前推送相關(guān)信息。
2.3未來(lái)展望:
基于大數(shù)據(jù)和互聯(lián)網(wǎng)+技術(shù)的日益發(fā)展與完善,并隨著通信傳輸速度的逐漸提高,可在實(shí)時(shí)的條件下分析與推送更多豐富的內(nèi)容,加以與即時(shí)聊天軟件的結(jié)合,將該技術(shù)深度整合到系統(tǒng)或QQ服務(wù)中在通話結(jié)束后針對(duì)通話中涉及的電話號(hào)碼、地點(diǎn)、時(shí)間等關(guān)鍵信息進(jìn)行信息的推送,并對(duì)聽(tīng)力有障礙的人士有更為重要的意義,未來(lái)的市場(chǎng)前景廣闊。
三、語(yǔ)音識(shí)別技術(shù)應(yīng)用
3.1 語(yǔ)音指令控制在汽車(chē)上的應(yīng)用:
語(yǔ)音控制人員只需要用嘴說(shuō)出命令控制字,就可以實(shí)現(xiàn)對(duì)系統(tǒng)的控制。在汽車(chē)上,可用于汽車(chē)導(dǎo)航、控制車(chē)載設(shè)備。如車(chē)燈、音響、天窗、座椅、雨刮器等。
3.2語(yǔ)音識(shí)別技術(shù)在醫(yī)療系統(tǒng)中的應(yīng)用:
醫(yī)療語(yǔ)音識(shí)別技術(shù),已有廠商開(kāi)發(fā)了基于云平臺(tái)的語(yǔ)音識(shí)別系統(tǒng),可直接內(nèi)嵌到醫(yī)院電子病歷系統(tǒng)中,讓醫(yī)生通過(guò)語(yǔ)音輸入病人信息,填寫(xiě)醫(yī)療記錄,下達(dá)醫(yī)囑信息。
四、相關(guān)市場(chǎng)調(diào)研
1、國(guó)內(nèi)外市場(chǎng)分析:2015年全球智能語(yǔ)音產(chǎn)業(yè)規(guī)模達(dá)到61.2億美元,較2014年增長(zhǎng)34.2%。其中,中國(guó)智能語(yǔ)音產(chǎn)業(yè)規(guī)模達(dá)到40.3億元,較2014年增長(zhǎng)增長(zhǎng)41.0%,遠(yuǎn)高于全球語(yǔ)音產(chǎn)業(yè)增長(zhǎng)速度預(yù)計(jì)到2016年,中國(guó)語(yǔ)音產(chǎn)業(yè)規(guī)模預(yù)計(jì)達(dá)到59億元。[2]
2、相關(guān)應(yīng)用發(fā)展:拉斯維加斯消費(fèi)電子展(CES)上展示的MindMeld。在通話中,如果參與者點(diǎn)擊應(yīng)用的一個(gè)按鈕,那么MindMeld將利用Nuance的語(yǔ)音識(shí)別技術(shù),分析此前15至30秒對(duì)話。隨后,MindMeld將確定對(duì)話中的關(guān)鍵詞,以及其他多個(gè)信息來(lái)源,查找具有相關(guān)性的信息,并在屏幕上向用戶提供圖片和鏈接地址。[3]
參 考 文 獻(xiàn)
[1] 吳堅(jiān).基于web的salt語(yǔ)音識(shí)別技術(shù)應(yīng)用研究[D].湖北工業(yè)大學(xué), 2006
1.概況
語(yǔ)音識(shí)別技術(shù)成為21世紀(jì)“數(shù)字時(shí)代”的重要開(kāi)發(fā)領(lǐng)域,在計(jì)算機(jī)的多媒體技術(shù)應(yīng)用和工業(yè)自動(dòng)化控制應(yīng)用等方面,成果令人屬目。語(yǔ)音識(shí)別技術(shù)是指用電子裝置來(lái)識(shí)別某些人的某些特征語(yǔ)音,語(yǔ)音識(shí)別的手段一般分為二大類(lèi),一類(lèi)利用在計(jì)算機(jī)上開(kāi)發(fā)語(yǔ)音識(shí)別系統(tǒng),通過(guò)編程軟件達(dá)到對(duì)語(yǔ)音的識(shí)別,另一類(lèi)采用專(zhuān)門(mén)的語(yǔ)音識(shí)別芯片來(lái)進(jìn)行簡(jiǎn)單的語(yǔ)音識(shí)別。利用專(zhuān)門(mén)的語(yǔ)音識(shí)別芯片應(yīng)用在地鐵車(chē)輛上,具有結(jié)構(gòu)簡(jiǎn)單、使用方便,并且語(yǔ)音識(shí)別器有較高的可靠性、穩(wěn)定性的特點(diǎn),是簡(jiǎn)單語(yǔ)音識(shí)別在自動(dòng)控制應(yīng)用上的一種優(yōu)先方案。
目前上海地鐵
一、
二、
三、
五、
六、八號(hào)線在車(chē)輛信息顯示系統(tǒng)的設(shè)計(jì)上缺少實(shí)用性和操作性,對(duì)乘客來(lái)講缺少在實(shí)時(shí)報(bào)站時(shí)的人性化。如:地鐵車(chē)廂內(nèi)的乘客信息顯示系統(tǒng)和車(chē)廂外側(cè)的列車(chē)信息顯示系統(tǒng)。如果在每個(gè)車(chē)門(mén)的上方安裝車(chē)站站名動(dòng)態(tài)顯示地圖,實(shí)時(shí)顯示與車(chē)廂廣播同步的信息,以及在每節(jié)車(chē)廂外側(cè)顯示列車(chē)的終點(diǎn)站,良好的工業(yè)設(shè)計(jì)不僅能給廣大的乘客帶來(lái)非常大的幫助,而且能夠提升上海地鐵服務(wù)的形象。由于在設(shè)計(jì)以上地鐵列車(chē)時(shí),受科技發(fā)展的限制。現(xiàn)在上海地鐵4號(hào)線在車(chē)輛信息顯示系統(tǒng)的設(shè)計(jì)上滿足了廣大的乘客的需求,
增加了車(chē)站站名動(dòng)態(tài)顯示地圖。
如何在現(xiàn)有的地鐵車(chē)輛上增加地鐵車(chē)廂內(nèi)的乘客信息顯示系統(tǒng)和車(chē)廂外側(cè)的列車(chē)信息顯示系統(tǒng),如圖1、2,首先考慮其實(shí)用性和性價(jià)比,同時(shí)安裝、操作要方便,在不影響列車(chē)的性能的前提下,完成本乘客信息顯示系統(tǒng)的應(yīng)用,設(shè)計(jì)方案的選擇極其重要,目前的乘客信息顯示系統(tǒng)比較復(fù)雜,例如:對(duì)于應(yīng)用在某條線路上的聲音識(shí)別系統(tǒng),不僅要修改原語(yǔ)音文件,而且聲音識(shí)別器不容易操縱,
對(duì)使用者來(lái)講仍然存在比較多的問(wèn)題。對(duì)于應(yīng)用在某條線路上數(shù)字傳輸顯示系統(tǒng),其操作方法不僅給司機(jī)帶來(lái)了任務(wù),每站需要手動(dòng)操作二次,同時(shí)顯示的相關(guān)內(nèi)容沒(méi)有實(shí)時(shí)性,總之乘客信息顯示系統(tǒng)比較落后。
設(shè)計(jì)一種符合現(xiàn)代化要求的乘客信息顯示系統(tǒng)是非常必要。
2.設(shè)計(jì)
地鐵車(chē)輛乘客信息顯示系統(tǒng)的設(shè)計(jì),采用CMOS語(yǔ)音識(shí)別大規(guī)模集成電路,識(shí)別響應(yīng)時(shí)間小于300ms。HM2007芯片采用單片結(jié)構(gòu),如圖3。將語(yǔ)音識(shí)別需要的全部電路:CPU、A/D、ROM、語(yǔ)音的AMP放大器、壓縮器、濾波器、震蕩器和接口界面等集中在一片芯片內(nèi),這樣電路就非常少,外接64K非易失性SRAM,最多能識(shí)別40個(gè)車(chē)站站名語(yǔ)音(字長(zhǎng)0.9秒),或(字長(zhǎng)1.92秒)但識(shí)別僅20個(gè)車(chē)站站名語(yǔ)音。按正常人的講話速度,0.9秒一般每秒吐字1到3個(gè)為宜。
針對(duì)目前上海地鐵列車(chē)在車(chē)廂內(nèi)外無(wú)LED動(dòng)態(tài)站名顯示而設(shè)計(jì),通過(guò)將列車(chē)車(chē)廂廣播的模擬信號(hào)轉(zhuǎn)換成數(shù)字信號(hào),自動(dòng)控制LED發(fā)光二極管,在列車(chē)在車(chē)廂內(nèi)使得廣播的內(nèi)容(每個(gè)車(chē)站站名)與發(fā)光二極管顯示面板聲光同步,將顯示面板放置地鐵車(chē)輛的每扇車(chē)門(mén)上方,并且顯示面板以地鐵運(yùn)營(yíng)線路為背景,達(dá)到列車(chē)進(jìn)站和出站時(shí)能分別指示。在列車(chē)車(chē)廂外讓乘客非常直觀地、一目了然地了解車(chē)輛的終點(diǎn)站方向,從而方便乘客的上下車(chē),提高了地鐵服務(wù)水平。在國(guó)外的地鐵列車(chē)上應(yīng)用已相當(dāng)普遍。
語(yǔ)音識(shí)別顯示器①的輸入端與車(chē)載廣播功放器相連接,實(shí)現(xiàn)廣播模擬信號(hào)發(fā)出的語(yǔ)音進(jìn)行車(chē)站名的自動(dòng)識(shí)別。不需要編程技術(shù)和修改文件等方法,全部采用硬件方法設(shè)計(jì)。整個(gè)系統(tǒng)分為5部分:(1)輸入控制部分;(2)噪音濾波部分;(3)語(yǔ)言識(shí)別部分;(4)執(zhí)行顯示部分;(5)錄音功能部分。
(1)輸入控制部分:
通過(guò)麥克風(fēng)或(結(jié)合器)連接,如圖4所示,要求模擬語(yǔ)音輸入點(diǎn)的電壓必須控制在大約20mv左右,以確保后期語(yǔ)音識(shí)別的正確性。在輸入電路中增加了聲音控制部分的電路,即將模擬信號(hào)轉(zhuǎn)變成數(shù)字方波信號(hào),對(duì)語(yǔ)音輸入進(jìn)行開(kāi)關(guān)量的控制,確保在T<0.9秒內(nèi)的正確輸入語(yǔ)音字長(zhǎng)。
(2)語(yǔ)音識(shí)別部分:
利用語(yǔ)音識(shí)別芯片HM2007和外接6264SRAM存儲(chǔ)器組成為主要部分,(HM2007中ROM已經(jīng)固化了語(yǔ)音語(yǔ)法技術(shù))對(duì)語(yǔ)音的存儲(chǔ)及語(yǔ)音語(yǔ)法算法進(jìn)行控制。HM2007的詳細(xì)內(nèi)容見(jiàn)產(chǎn)品說(shuō)明書(shū)。
(3)噪音濾波部分:
濾波功能是自動(dòng)識(shí)別(阻擋)我們?cè)谠O(shè)計(jì)階段設(shè)計(jì)好的各個(gè)工況的語(yǔ)音情況,例如:司機(jī)的講話及車(chē)輛雜音等(在麥克風(fēng)的工況下),以確保輸入語(yǔ)音的可靠性、穩(wěn)定性,特采用UM3758串行編譯碼一體化進(jìn)行濾波電路。如圖5。
(4)執(zhí)行顯示部分:
將車(chē)廂廣播喇叭的模擬信息通過(guò)語(yǔ)音識(shí)別器轉(zhuǎn)變成數(shù)字信息,最終經(jīng)過(guò)譯碼電路、4/16多路數(shù)據(jù)選擇器及RS485接口,去控制車(chē)廂內(nèi)車(chē)門(mén)上十個(gè)LED顯示面板,如圖6。
(5)錄音功能部分:
在進(jìn)行廣播內(nèi)容更改時(shí),本項(xiàng)目最大的特點(diǎn)是:不需要任何手段的手工軟件編程的修改,而是通過(guò)遠(yuǎn)程音頻電路控制技術(shù)進(jìn)行按動(dòng)相關(guān)按鈕,選擇地址然后自動(dòng)錄入內(nèi)容,如圖6。
3.結(jié)論
語(yǔ)音識(shí)別器及LED顯示面板的設(shè)計(jì),能應(yīng)用到以前沒(méi)有LED顯示面功能的地鐵車(chē)輛上,與其他所設(shè)計(jì)的方式相比較,語(yǔ)音識(shí)別控制簡(jiǎn)單、可靠性好、安裝方便、相對(duì)投資最小和不改動(dòng)車(chē)廂內(nèi)任何電器為特點(diǎn),僅提供110VDC電源和音頻輸入接口。
本項(xiàng)目的開(kāi)發(fā)具有一定社會(huì)效益,得到國(guó)內(nèi)外乘客和殘疾人員的歡迎,提高了地鐵服務(wù)質(zhì)量。
參考文獻(xiàn):
1.HUALONMICRELECTRONICSCORPORATIONTIWANPRODUCTNUMBER:HM2007
2.555集成電路實(shí)用大全上??萍计占俺霭嫔?/p>
3.①獲得“2003年上海市優(yōu)秀發(fā)明選拔賽三等獎(jiǎng)”
4.①編入《中國(guó)科技發(fā)展精典文庫(kù)》第四輯
關(guān)鍵詞: 語(yǔ)音識(shí)別; 識(shí)別原理; 聲學(xué)建模方法; 多維模式識(shí)別系統(tǒng)
中圖分類(lèi)號(hào): TN912.3?34 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2013)13?0043?03
Summary of speech recognition technology and its application
YU Lin?lin
(Naval Aviation Military Representative Office Stationed in Beijing, Beijing 100041, China)
Abstract: As a key technology of human?computer interface in information technology, speech recognition has great research significance and broad application value. the development history of speech recognition technology is introduced, the basic knowledge of speech recognition is expounded, such as concept, basic principle, the acoustic modeling approach. The application of speech recognition technology in various fields are briefly introduced.
Keywords: speech recognition; recognition principle; acoustic modeling approach; multi?dimension pattern recognition system
0 引 言
語(yǔ)言是人類(lèi)相互交流最常用、最有效、最重要和最方便的通信形式,語(yǔ)音是語(yǔ)言的聲學(xué)表現(xiàn),與機(jī)器進(jìn)行語(yǔ)音交流是人類(lèi)一直以來(lái)的夢(mèng)想。隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展,語(yǔ)音識(shí)別技術(shù)也取得突破性的成就,人與機(jī)器用自然語(yǔ)言進(jìn)行對(duì)話的夢(mèng)想逐步接近實(shí)現(xiàn)。語(yǔ)音識(shí)別技術(shù)的應(yīng)用范圍極為廣泛,不僅涉及到日常生活的方方面面,在軍事領(lǐng)域也發(fā)揮著極其重要的作用。它是信息社會(huì)朝著智能化和自動(dòng)化發(fā)展的關(guān)鍵技術(shù),使人們對(duì)信息的處理和獲取更加便捷,從而提高人們的工作效率。
1 語(yǔ)音識(shí)別技術(shù)的發(fā)展
語(yǔ)音識(shí)別技術(shù)起始于20世紀(jì)50年代。這一時(shí)期,語(yǔ)音識(shí)別的研究主要集中在對(duì)元音、輔音、數(shù)字以及孤立詞的識(shí)別。
20世紀(jì)60年代,語(yǔ)音識(shí)別研究取得實(shí)質(zhì)性進(jìn)展。線性預(yù)測(cè)分析和動(dòng)態(tài)規(guī)劃的提出較好地解決了語(yǔ)音信號(hào)模型的產(chǎn)生和語(yǔ)音信號(hào)不等長(zhǎng)兩個(gè)問(wèn)題,并通過(guò)語(yǔ)音信號(hào)的線性預(yù)測(cè)編碼,有效地解決了語(yǔ)音信號(hào)的特征提取。
20世紀(jì)70年代,語(yǔ)音識(shí)別技術(shù)取得突破性進(jìn)展?;趧?dòng)態(tài)規(guī)劃的動(dòng)態(tài)時(shí)間規(guī)整(Dynamic Time Warping, DTW)技術(shù)基本成熟,特別提出了矢量量化(Vector Quantization,VQ)和隱馬爾可夫模型(Hidden Markov Model,HMM)理論[1]。
20世紀(jì)80年代,語(yǔ)音識(shí)別任務(wù)開(kāi)始從孤立詞、連接詞的識(shí)別轉(zhuǎn)向大詞匯量、非特定人、連續(xù)語(yǔ)音的識(shí)別,識(shí)別算法也從傳統(tǒng)的基于標(biāo)準(zhǔn)模板匹配的方法轉(zhuǎn)向基于統(tǒng)計(jì)模型的方法。在聲學(xué)模型方面,由于HMM能夠很好的描述語(yǔ)音時(shí)變性和平穩(wěn)性,開(kāi)始被廣泛應(yīng)用于大詞匯量連續(xù)語(yǔ)音識(shí)別(Large Vocabulary Continous Speech Recognition, LVCSR)的聲學(xué)建模[2?3];在語(yǔ)言模型方面,以N元文法為代表的統(tǒng)計(jì)語(yǔ)言模型開(kāi)始廣泛應(yīng)用于語(yǔ)音識(shí)別系統(tǒng)[4]。在這一階段,基于HMM/VQ、HMM/高斯混合模型、HMM/人工神經(jīng)網(wǎng)絡(luò)的語(yǔ)音建模方法開(kāi)始廣泛應(yīng)用于LVCSR系統(tǒng),語(yǔ)音識(shí)別技術(shù)取得新突破。
20世紀(jì)90年代以后,伴隨著語(yǔ)音識(shí)別系統(tǒng)走向?qū)嵱没?,語(yǔ)音識(shí)別在細(xì)化模型的設(shè)計(jì)、參數(shù)提取和優(yōu)化、系統(tǒng)的自適應(yīng)方面取得較大進(jìn)展[5]。同時(shí),人們更多地關(guān)注話者自適應(yīng)、聽(tīng)覺(jué)模型、快速搜索識(shí)別算法以及進(jìn)一步的語(yǔ)言模型的研究等課題[6]。此外,語(yǔ)音識(shí)別技術(shù)開(kāi)始與其他領(lǐng)域相關(guān)技術(shù)進(jìn)行結(jié)合,以提高識(shí)別的準(zhǔn)確率,便于實(shí)現(xiàn)語(yǔ)音識(shí)別技術(shù)的產(chǎn)品化。
2 語(yǔ)音識(shí)別基礎(chǔ)
2.1 語(yǔ)音識(shí)別概念
語(yǔ)音識(shí)別是將人類(lèi)的聲音信號(hào)轉(zhuǎn)化為文字或者指令的過(guò)程[7]。語(yǔ)音識(shí)別以語(yǔ)音為研究對(duì)象,它是語(yǔ)音信號(hào)處理的一個(gè)重要研究方向,是模式識(shí)別的一個(gè)分支。語(yǔ)音識(shí)別的研究涉及微機(jī)技術(shù)、人工智能、數(shù)字信號(hào)處理、模式識(shí)別、聲學(xué)、語(yǔ)言學(xué)和認(rèn)知科學(xué)等許多學(xué)科領(lǐng)域,是一個(gè)多學(xué)科綜合性研究領(lǐng)域[8]。
根據(jù)在不同限制條件下的研究任務(wù),產(chǎn)生了不同的研究領(lǐng)域。這些領(lǐng)域包括:根據(jù)對(duì)說(shuō)話人說(shuō)話方式的要求,可分為孤立字(詞)、連接詞和連續(xù)語(yǔ)音識(shí)別系統(tǒng);根據(jù)對(duì)說(shuō)話人的依賴程度,可分為特定人和非特定人語(yǔ)音識(shí)別系統(tǒng);根據(jù)詞匯量的大小,可分為小詞匯量、中等詞匯量、大詞匯量以及無(wú)限詞匯量語(yǔ)音識(shí)別系統(tǒng)。
2.2 語(yǔ)音識(shí)別基本原理
從語(yǔ)音識(shí)別模型的角度講,主流的語(yǔ)音識(shí)別系統(tǒng)理論是建立在統(tǒng)計(jì)模式識(shí)別基礎(chǔ)之上的。語(yǔ)音識(shí)別的目標(biāo)是利用語(yǔ)音學(xué)與語(yǔ)言學(xué)信息,把輸入的語(yǔ)音特征向量序列[X=x1,x2,…,xT]轉(zhuǎn)化成詞序列[W=w1,w2,…,wN]并輸出?;谧畲蠛篁?yàn)概率的語(yǔ)音識(shí)別模型如下式所示:
[W=argmaxW{P(W|X)}=argmaxWP(W|X)P(W)P(X)=argmaxW{P(X|W)P(W)}=argmaxW{logP(X|W)+λlogP(W)}]
上式表明,要尋找的最可能的詞序列[W],應(yīng)該使[P(X|W)]與[P(W)]的乘積達(dá)到最大。其中,[P(X|W)]是特征矢量序列[X]在給定[W]條件下的條件概率,由聲學(xué)模型決定。[P(W)]是[W]獨(dú)立于語(yǔ)音特征矢量的先驗(yàn)概率,由語(yǔ)言模型決定。由于將概率取對(duì)數(shù)不影響[W]的選取,第四個(gè)等式成立。[logP(X|W)]與[logP(W)]分別表示聲學(xué)得分與語(yǔ)言得分,且分別通過(guò)聲學(xué)模型與語(yǔ)言模型計(jì)算得到。[λ]是平衡聲學(xué)模型與語(yǔ)言模型的權(quán)重。從語(yǔ)音識(shí)別系統(tǒng)構(gòu)成的角度講,一個(gè)完整的語(yǔ)音識(shí)別系統(tǒng)包括特征提取、聲學(xué)模型、語(yǔ)言模型、搜索算法等模塊。語(yǔ)音識(shí)別系統(tǒng)本質(zhì)上是一種多維模式識(shí)別系統(tǒng),對(duì)于不同的語(yǔ)音識(shí)別系統(tǒng),人們所采用的具體識(shí)別方法及技術(shù)不同,但其基本原理都是相同的,即將采集到的語(yǔ)音信號(hào)送到特征提取模塊處理,將所得到的語(yǔ)音特征參數(shù)送入模型庫(kù)模塊,由聲音模式匹配模塊根據(jù)模型庫(kù)對(duì)該段語(yǔ)音進(jìn)行識(shí)別,最后得出識(shí)別結(jié)果[9]。
語(yǔ)音識(shí)別系統(tǒng)基本原理框圖如圖1所示,其中:預(yù)處理模塊濾除原始語(yǔ)音信號(hào)中的次要信息及背景噪音等,包括抗混疊濾波、預(yù)加重、模/數(shù)轉(zhuǎn)換、自動(dòng)增益控制等處理過(guò)程,將語(yǔ)音信號(hào)數(shù)字化;特征提取模塊對(duì)語(yǔ)音的聲學(xué)參數(shù)進(jìn)行分析后提取出語(yǔ)音特征參數(shù),形成特征矢量序列。語(yǔ)音識(shí)別系統(tǒng)常用的特征參數(shù)有短時(shí)平均幅度、短時(shí)平均能量、線性預(yù)測(cè)編碼系數(shù)、短時(shí)頻譜等。特征提取和選擇是構(gòu)建系統(tǒng)的關(guān)鍵,對(duì)識(shí)別效果極為重要。
圖1 語(yǔ)音識(shí)別基本原理框圖
由于語(yǔ)音信號(hào)本質(zhì)上屬于非平穩(wěn)信號(hào),目前對(duì)語(yǔ)音信號(hào)的分析是建立在短時(shí)平穩(wěn)性假設(shè)之上的。在對(duì)語(yǔ)音信號(hào)作短時(shí)平穩(wěn)假設(shè)后,通過(guò)對(duì)語(yǔ)音信號(hào)進(jìn)行加窗,實(shí)現(xiàn)短時(shí)語(yǔ)音片段上的特征提取。這些短時(shí)片段被稱為幀,以幀為單位的特征序列構(gòu)成語(yǔ)音識(shí)別系統(tǒng)的輸入。由于梅爾倒譜系數(shù)及感知線性預(yù)測(cè)系數(shù)能夠從人耳聽(tīng)覺(jué)特性的角度準(zhǔn)確刻畫(huà)語(yǔ)音信號(hào),已經(jīng)成為目前主流的語(yǔ)音特征。為補(bǔ)償幀間獨(dú)立性假設(shè),人們?cè)谑褂妹窢柕棺V系數(shù)及感知線性預(yù)測(cè)系數(shù)時(shí),通常加上它們的一階、二階差分,以引入信號(hào)特征的動(dòng)態(tài)特征。
聲學(xué)模型是語(yǔ)音識(shí)別系統(tǒng)中最為重要的部分之一。聲學(xué)建模涉及建模單元選取、模型狀態(tài)聚類(lèi)、模型參數(shù)估計(jì)等很多方面。在目前的LVCSR系統(tǒng)中,普遍采用上下文相關(guān)的模型作為基本建模單元,以刻畫(huà)連續(xù)語(yǔ)音的協(xié)同發(fā)音現(xiàn)象。在考慮了語(yǔ)境的影響后,聲學(xué)模型的數(shù)量急劇增加,LVCSR系統(tǒng)通常采用狀態(tài)聚類(lèi)的方法壓縮聲學(xué)參數(shù)的數(shù)量,以簡(jiǎn)化模型的訓(xùn)練。在訓(xùn)練過(guò)程中,系統(tǒng)對(duì)若干次訓(xùn)練語(yǔ)音進(jìn)行預(yù)處理,并通過(guò)特征提取得到特征矢量序列,然后由特征建模模塊建立訓(xùn)練語(yǔ)音的參考模式庫(kù)。
搜索是在指定的空間當(dāng)中,按照一定的優(yōu)化準(zhǔn)則,尋找最優(yōu)詞序列的過(guò)程。搜索的本質(zhì)是問(wèn)題求解,廣泛應(yīng)用于語(yǔ)音識(shí)別、機(jī)器翻譯等人工智能和模式識(shí)別的各個(gè)領(lǐng)域。它通過(guò)利用已掌握的知識(shí)(聲學(xué)知識(shí)、語(yǔ)音學(xué)知識(shí)、詞典知識(shí)、語(yǔ)言模型知識(shí)等),在狀態(tài)(從高層至底層依次為詞、聲學(xué)模型、HMM狀態(tài))空間中找到最優(yōu)的狀態(tài)序列。最終的詞序列是對(duì)輸入的語(yǔ)音信號(hào)在一定準(zhǔn)則下的一個(gè)最優(yōu)描述。在識(shí)別階段,將輸入語(yǔ)音的特征矢量參數(shù)同訓(xùn)練得到的參考模板庫(kù)中的模式進(jìn)行相似性度量比較,將相似度最高的模式所屬的類(lèi)別作為識(shí)別中間候選結(jié)果輸出。為了提高識(shí)別的正確率,在后處理模塊中對(duì)上述得到的候選識(shí)別結(jié)果繼續(xù)處理,包括通過(guò)Lattice重打分融合更高元的語(yǔ)言模型、通過(guò)置信度度量得到識(shí)別結(jié)果的可靠程度等。最終通過(guò)增加約束,得到更可靠的識(shí)別結(jié)果。
2.3 聲學(xué)建模方法
常用的聲學(xué)建模方法包含以下三種:基于模式匹配的動(dòng)態(tài)時(shí)間規(guī)整法(DTW);隱馬爾可夫模型法(HMM);基于人工神經(jīng)網(wǎng)絡(luò)識(shí)別法(ANN)等。
DTW 是較早的一種模式匹配的方法。它基于動(dòng)態(tài)規(guī)劃的思想,解決孤立詞語(yǔ)音識(shí)別中的語(yǔ)音信號(hào)特征參數(shù)序列比較時(shí)長(zhǎng)度不一的模板匹配問(wèn)題。在實(shí)際應(yīng)用中,DTW通過(guò)計(jì)算已預(yù)處理和分幀的語(yǔ)音信號(hào)與參考模板之間的相似度,再按照某種距離測(cè)度計(jì)算出模板間的相似度并選擇最佳路徑。
HMM是對(duì)語(yǔ)音信號(hào)的時(shí)間序列結(jié)構(gòu)所建立的統(tǒng)計(jì)模型,是在馬爾可夫鏈的基礎(chǔ)上發(fā)展起來(lái)的,它是一種基于參數(shù)模型的統(tǒng)計(jì)識(shí)別方法。HMM可模仿人的言語(yǔ)過(guò)程,可視作一個(gè)雙重隨機(jī)過(guò)程:一個(gè)是用具有有限狀態(tài)數(shù)的馬爾可夫鏈來(lái)模擬語(yǔ)音信號(hào)統(tǒng)計(jì)特性變化的隱含的隨機(jī)過(guò)程,另一個(gè)是與馬爾可夫鏈的每一個(gè)狀態(tài)相關(guān)聯(lián)的觀測(cè)序列的隨機(jī)過(guò)程[10]。
ANN以數(shù)學(xué)模型模擬神經(jīng)元活動(dòng),將人工神經(jīng)網(wǎng)絡(luò)中大量神經(jīng)元并行分布運(yùn)算的原理、高效的學(xué)習(xí)算法以及對(duì)人的認(rèn)知系統(tǒng)的模仿能力充分運(yùn)用到語(yǔ)音識(shí)別領(lǐng)域,并結(jié)合神經(jīng)網(wǎng)絡(luò)和隱含馬爾可夫模型的識(shí)別算法,克服了ANN在描述語(yǔ)音信號(hào)時(shí)間動(dòng)態(tài)特性方面的缺點(diǎn),進(jìn)一步提高了語(yǔ)音識(shí)別的魯棒性和準(zhǔn)確率。其中成功的方法就是在混合模型中用ANN替代高斯混合模型估計(jì)音素或狀態(tài)的后驗(yàn)概率。2011年,微軟以深度神經(jīng)網(wǎng)絡(luò)替代多層感知機(jī)形成的混合模型系統(tǒng)大大提高了語(yǔ)音識(shí)別的準(zhǔn)確率。
3 語(yǔ)音識(shí)別的應(yīng)用
語(yǔ)音識(shí)別技術(shù)有著非常廣泛的應(yīng)用領(lǐng)域和市場(chǎng)前景。在語(yǔ)音輸入控制系統(tǒng)中,它使得人們可以甩掉鍵盤(pán),通過(guò)識(shí)別語(yǔ)音中的要求、請(qǐng)求、命令或詢問(wèn)來(lái)作出正確的響應(yīng),這樣既可以克服人工鍵盤(pán)輸入速度慢,極易出差錯(cuò)的缺點(diǎn),又有利于縮短系統(tǒng)的反應(yīng)時(shí)間,使人機(jī)交流變得簡(jiǎn)便易行,比如用于聲控語(yǔ)音撥號(hào)系統(tǒng)、聲控智能玩具、智能家電等領(lǐng)域。在智能對(duì)話查詢系統(tǒng)中,人們通過(guò)語(yǔ)音命令,可以方便地從遠(yuǎn)端的數(shù)據(jù)庫(kù)系統(tǒng)中查詢與提取有關(guān)信息,享受自然、友好的數(shù)據(jù)庫(kù)檢索服務(wù),例如信息網(wǎng)絡(luò)查詢、醫(yī)療服務(wù)、銀行服務(wù)等。語(yǔ)音識(shí)別技術(shù)還可以應(yīng)用于自動(dòng)口語(yǔ)翻譯,即通過(guò)將口語(yǔ)識(shí)別技術(shù)、機(jī)器翻譯技術(shù)、語(yǔ)音合成技術(shù)等相結(jié)合,可將一種語(yǔ)言的語(yǔ)音輸入翻譯為另一種語(yǔ)言的語(yǔ)音輸出,實(shí)現(xiàn)跨語(yǔ)言交流[11]。
語(yǔ)音識(shí)別技術(shù)在軍事斗爭(zhēng)領(lǐng)域里也有著極為重要的應(yīng)用價(jià)值和極其廣闊的應(yīng)用空間。一些語(yǔ)音識(shí)別技術(shù)就是著眼于軍事活動(dòng)而研發(fā),并在軍事領(lǐng)域首先應(yīng)用、首獲成效的,軍事應(yīng)用對(duì)語(yǔ)音識(shí)別系統(tǒng)的識(shí)別精度、響應(yīng)時(shí)間、惡劣環(huán)境下的頑健性都提出了更高的要求。目前,語(yǔ)音識(shí)別技術(shù)已在軍事指揮和控制自動(dòng)化方面得以應(yīng)用。比如,將語(yǔ)音識(shí)別技術(shù)應(yīng)用于航空飛行控制,可快速提高作戰(zhàn)效率和減輕飛行員的工作負(fù)擔(dān),飛行員利用語(yǔ)音輸入來(lái)代替?zhèn)鹘y(tǒng)的手動(dòng)操作和控制各種開(kāi)關(guān)和設(shè)備,以及重新改編或排列顯示器上的顯示信息等,可使飛行員把時(shí)間和精力集中于對(duì)攻擊目標(biāo)的判斷和完成其他操作上來(lái),以便更快獲得信息來(lái)發(fā)揮戰(zhàn)術(shù)優(yōu)勢(shì)。
4 結(jié) 語(yǔ)
語(yǔ)音識(shí)別的研究工作對(duì)于信息化社會(huì)的發(fā)展,人們生活水平的提高等方面有著深遠(yuǎn)的意義。隨著計(jì)算機(jī)信息技術(shù)的不斷發(fā)展,語(yǔ)音識(shí)別技術(shù)將取得更多重大突破,語(yǔ)音識(shí)別系統(tǒng)的研究將會(huì)更加深入,有著更加廣闊的發(fā)展空間。
參考文獻(xiàn)
[1] 馬志欣,王宏,李鑫.語(yǔ)音識(shí)別技術(shù)綜述[J].昌吉學(xué)院學(xué)報(bào),2006(3):93?97.
[2] RABINER L R, JUANG B H. An introduction to hidden Markov models [J]. IEEE ASSP Magazine, 1986, 3(1): 4?16.
[3] GALES M, YOUNG S. The application of hidden Markov models in speech recognition [J]. Foundations and Trends in Signal Processing, 2008, 1(3): 195?304.
[4] JELINEK F. Continuous speech recognition by statistical methods [J]. Proceedings of the IEEE, 1976, 64(4): 532?556.
[5] 倪崇嘉,劉文舉,徐波.漢語(yǔ)大詞匯量連續(xù)語(yǔ)音識(shí)別系統(tǒng)研究進(jìn)展[J].中文信息學(xué)報(bào),2009,23(1):112?123.
[6] 顧亞強(qiáng).非特定人語(yǔ)音識(shí)別關(guān)鍵技術(shù)研究[D].長(zhǎng)沙:國(guó)防科學(xué)技術(shù)大學(xué),2009.
[7] 中華人民共和國(guó)國(guó)家質(zhì)量監(jiān)督檢驗(yàn)檢疫總局.GB/T21023?2007 中文語(yǔ)音識(shí)別系統(tǒng)通用技術(shù)規(guī)范[S].北京:中國(guó)標(biāo)準(zhǔn)出版社,2007.
[8] 王文慧.基于ARM的嵌入式語(yǔ)音識(shí)別系統(tǒng)研究[D].天津:天津大學(xué),2008.
[9] 何湘智.語(yǔ)音識(shí)別的研究與發(fā)展[J].計(jì)算機(jī)與現(xiàn)代化,2002(3):3?6.
【關(guān)鍵詞】語(yǔ)音識(shí)別技術(shù);發(fā)展趨勢(shì)
語(yǔ)音識(shí)別是一門(mén)交叉學(xué)科。語(yǔ)音識(shí)別研究經(jīng)歷了50多年的研究歷程,經(jīng)過(guò)50多年的積累研究,獲得了巨大的進(jìn)展。特別是近20年來(lái),語(yǔ)音識(shí)別技術(shù)取得了顯著的進(jìn)步,并逐步的走向市場(chǎng)。在未來(lái)的日子里,語(yǔ)音識(shí)別技術(shù)將應(yīng)用更為廣泛。
一、語(yǔ)音識(shí)別技術(shù)概述
語(yǔ)音識(shí)別是解決機(jī)器“聽(tīng)懂”人類(lèi)語(yǔ)言的一項(xiàng)技術(shù)。作為智能計(jì)算機(jī)研究的主導(dǎo)方向和人機(jī)語(yǔ)音通信的關(guān)鍵技術(shù),語(yǔ)音識(shí)別技術(shù)一直受到各國(guó)科學(xué)界的廣泛關(guān)注。如今,隨著語(yǔ)音識(shí)別技術(shù)研究的突破,其對(duì)計(jì)算機(jī)發(fā)展和社會(huì)生活的重要性日益凸現(xiàn)出來(lái)。以語(yǔ)音識(shí)別技術(shù)開(kāi)發(fā)出的產(chǎn)品應(yīng)用領(lǐng)域非常廣泛,如聲控電話交換、信息網(wǎng)絡(luò)查詢、家庭服務(wù)、賓館服務(wù)、醫(yī)療服務(wù)、銀行服務(wù)、工業(yè)控制、語(yǔ)音通信系統(tǒng)等,幾乎深入到社會(huì)的每個(gè)行業(yè)和每個(gè)方面。
廣泛意義上的語(yǔ)音識(shí)別按照任務(wù)的不同可以分為4個(gè)方向:說(shuō)話人識(shí)別、關(guān)鍵詞檢出、語(yǔ)言辨識(shí)和語(yǔ)音識(shí)別。說(shuō)話人識(shí)別技術(shù)是以話音對(duì)說(shuō)話人進(jìn)行區(qū)別,從而進(jìn)行身份鑒別和認(rèn)證的技術(shù)。關(guān)鍵詞檢出技術(shù)應(yīng)用于一些具有特定要求的場(chǎng)合,只關(guān)注那些包含特定詞的句子,例如對(duì)一些特殊人名、地名的電話監(jiān)聽(tīng)等。語(yǔ)言辨識(shí)技術(shù)是通過(guò)分析處理一個(gè)語(yǔ)音片斷以判別其所屬語(yǔ)言種類(lèi)的技術(shù),本質(zhì)上也是語(yǔ)音識(shí)別技術(shù)的一個(gè)方面。語(yǔ)音識(shí)別就是通常人們所說(shuō)的以說(shuō)話的內(nèi)容作為識(shí)別對(duì)象的技術(shù),它是4個(gè)方面中最重要和研究最廣泛的一個(gè)方向,也是本文討論的主要內(nèi)容。
二、語(yǔ)音識(shí)別的研究歷史
語(yǔ)音識(shí)別的研究工作始于20世紀(jì)50年代,1952年Bell實(shí)驗(yàn)室開(kāi)發(fā)的Audry系統(tǒng)是第一個(gè)可以識(shí)別10個(gè)英文數(shù)字的語(yǔ)音識(shí)別系統(tǒng)。
1959年,Rorgie和Forge采用數(shù)字計(jì)算機(jī)識(shí)別英文元音和孤立詞,從此開(kāi)始了計(jì)算機(jī)語(yǔ)音識(shí)別。
60年代,蘇聯(lián)的Matin等提出了語(yǔ)音結(jié)束點(diǎn)的端點(diǎn)檢測(cè),使語(yǔ)音識(shí)別水平明顯上升;Vintsyuk提出了動(dòng)態(tài)編程,這一提法在以后的識(shí)別中不可或缺。60年代末、70年代初的重要成果是提出了信號(hào)線性預(yù)測(cè)編碼(LPC)技術(shù)和動(dòng)態(tài)時(shí)間規(guī)整(DTW)技術(shù),有效地解決了語(yǔ)音信號(hào)的特征提取和不等長(zhǎng)語(yǔ)音匹配問(wèn)題;同時(shí)提出了矢量量化(VQ)和隱馬爾可夫模型(HMM)理論。
80年代語(yǔ)音識(shí)別研究進(jìn)一步走向深入:HMM模型和人工神經(jīng)網(wǎng)絡(luò)(ANN)在語(yǔ)音識(shí)別中成功應(yīng)用。1988年,F(xiàn)ULEE Kai等用VQ/I-IMM方法實(shí)現(xiàn)了997個(gè)詞匯的非特定人連續(xù)語(yǔ)音識(shí)別系統(tǒng)SPHINX。這是世界上第1個(gè)高性能的非特定人、大詞匯量、連續(xù)語(yǔ)音識(shí)別系統(tǒng)。
進(jìn)入90年代后,語(yǔ)音識(shí)別技術(shù)進(jìn)一步成熟,并開(kāi)始向市場(chǎng)提品。許多發(fā)達(dá)國(guó)家如美國(guó)、日本、韓國(guó)以及IBM、Apple、AT&;T、Microsoft等公司都為語(yǔ)音識(shí)別系統(tǒng)的實(shí)用化開(kāi)發(fā)研究投以巨資。同時(shí)漢語(yǔ)語(yǔ)音識(shí)別也越來(lái)越受到重視。IBM開(kāi)發(fā)的ViaVoice和Microsoft開(kāi)發(fā)的中文識(shí)別引擎都具有了相當(dāng)高的漢語(yǔ)語(yǔ)音識(shí)別水平。
進(jìn)入21世紀(jì),隨著消費(fèi)類(lèi)電子產(chǎn)品的普及,嵌入式語(yǔ)音處理技術(shù)發(fā)展迅速[2]?;谡Z(yǔ)音識(shí)別芯片的嵌入式產(chǎn)品也越來(lái)越多,如Sensory公司的RSC系列語(yǔ)音識(shí)別芯片、Infineon公司的Unispeech和Unilite語(yǔ)音芯片等,這些芯片在嵌入式硬件開(kāi)發(fā)中得到了廣泛的應(yīng)用。在軟件上,目前比較成功的語(yǔ)音識(shí)別軟件有:Nuance、IBM的Viavoice和Microsoft的SAPI以及開(kāi)源軟件HTK,這些軟件都是面向非特定人、大詞匯量的連續(xù)語(yǔ)音識(shí)別系統(tǒng)。
三、語(yǔ)音識(shí)別技術(shù)的發(fā)展現(xiàn)狀
語(yǔ)音識(shí)別技術(shù)通過(guò)全球科學(xué)家的共同努力,經(jīng)歷半個(gè)多世紀(jì)的研究,目前已經(jīng)發(fā)展到了接近實(shí)用的階段。在實(shí)驗(yàn)室環(huán)境下,大詞匯量的朗讀式連續(xù)說(shuō)話的寬帶語(yǔ)音信號(hào)的平均識(shí)別率可以達(dá)到90%以上。正式有了如此高的識(shí)別率之后,語(yǔ)音識(shí)別技術(shù)慢慢地從實(shí)驗(yàn)室演示系統(tǒng)逐步走向?qū)嵱没唐?。以IBM Via Voice和Dragon Dictation為代表的兩個(gè)聽(tīng)寫(xiě)機(jī)系統(tǒng)的出現(xiàn),使“語(yǔ)音識(shí)別”逐步進(jìn)入大眾視線,引起了廣泛的社會(huì)關(guān)注。
由于校對(duì)和更正識(shí)別的錯(cuò)誤很麻煩和浪費(fèi)時(shí)間,這樣便降低語(yǔ)音識(shí)別的優(yōu)勢(shì)。同時(shí),由于使用的環(huán)境或講話口音習(xí)慣等因素的影響,語(yǔ)音識(shí)別的內(nèi)容大大降低,識(shí)別的內(nèi)容不能達(dá)到100%的正確,所以很多人認(rèn)為目前的語(yǔ)音識(shí)別系統(tǒng)還無(wú)法滿足實(shí)用要求。
目前,AT&T和MIT等將語(yǔ)音識(shí)別技術(shù)應(yīng)用在一些有限詞匯的特定任務(wù)上,如電話自動(dòng)轉(zhuǎn)接、電話查詢、數(shù)字串識(shí)別的任務(wù)中,當(dāng)講話的內(nèi)容是系統(tǒng)所存儲(chǔ)的內(nèi)容存在的,且使用環(huán)境的聲學(xué)特性與訓(xùn)練數(shù)據(jù)的聲學(xué)特性相差不太大時(shí),語(yǔ)音識(shí)別的正確識(shí)別率可以接近100%。但是,在實(shí)際使用中如果這些條件被破壞,則會(huì)對(duì)識(shí)別系統(tǒng)造成一定的影響。
我國(guó)的語(yǔ)音識(shí)別研究一直緊跟國(guó)際水平,國(guó)家也很重視。國(guó)內(nèi)中科院的自動(dòng)化所、聲學(xué)所以及清華大學(xué)等科研機(jī)構(gòu)和高校都在從事語(yǔ)音識(shí)別領(lǐng)域的研究和開(kāi)發(fā)。國(guó)家863智能計(jì)算機(jī)專(zhuān)家組為語(yǔ)音識(shí)別技術(shù)研究專(zhuān)門(mén)立項(xiàng),并取得了高水平的科研成果。我國(guó)中科院自動(dòng)化所研制的非特定人、連續(xù)語(yǔ)音聽(tīng)寫(xiě)系統(tǒng)和漢語(yǔ)語(yǔ)音人機(jī)對(duì)話系統(tǒng),其準(zhǔn)確率和系統(tǒng)響應(yīng)率均可達(dá)90%以上。
四、語(yǔ)音識(shí)別技術(shù)發(fā)展趨勢(shì)
語(yǔ)音作為當(dāng)前通信系統(tǒng)中最自然的通信媒介,語(yǔ)音識(shí)別技術(shù)是非常重要的人機(jī)交互技術(shù)。隨著計(jì)算機(jī)和語(yǔ)音處理技術(shù)的發(fā)展,語(yǔ)音識(shí)別系統(tǒng)的實(shí)用性將進(jìn)一步提高。應(yīng)用語(yǔ)音的自動(dòng)理解和翻譯,可消除人類(lèi)相互交往的語(yǔ)言障礙。國(guó)外已有多種基于語(yǔ)音識(shí)別產(chǎn)品的應(yīng)用,如聲控?fù)芴?hào)電話、語(yǔ)音記事本等,基于特定任務(wù)和環(huán)境的聽(tīng)寫(xiě)機(jī)也已經(jīng)進(jìn)入應(yīng)用階段。這預(yù)示著語(yǔ)音識(shí)別技術(shù)有著非常廣泛的應(yīng)用領(lǐng)域和市場(chǎng)前景。隨著語(yǔ)音技術(shù)的進(jìn)步和通信技術(shù)的飛速發(fā)展,語(yǔ)音識(shí)別技術(shù)將為網(wǎng)上會(huì)議、商業(yè)管理、醫(yī)藥衛(wèi)生、教育培訓(xùn)等各個(gè)領(lǐng)域帶來(lái)極大的便利,其應(yīng)用和經(jīng)濟(jì)、社會(huì)效益前景非常良好.
雖然語(yǔ)音識(shí)別在過(guò)去的20年里有了很大的發(fā)展,但是,仍然存在很多的不足,有待于進(jìn)一步的探索,具體可分為以下幾個(gè)方面:
1.提高可靠性。語(yǔ)音識(shí)別技術(shù)需要能排除各種聲學(xué)環(huán)境因素的影響。在比較嘈雜的公共環(huán)境中,人的意識(shí)會(huì)有意識(shí)的排除非需要的聲學(xué)環(huán)境因素,這對(duì)語(yǔ)音識(shí)別系統(tǒng)而言,是很難做到的。另外,在日常生活中,人類(lèi)的語(yǔ)言常常具有較大的不確定性,比較隨意,并帶有明顯的言語(yǔ)習(xí)慣。這同樣會(huì)給語(yǔ)音識(shí)別系統(tǒng)很大的識(shí)別麻煩。目前,在提高語(yǔ)音系統(tǒng)在不同環(huán)境中的可靠性,同時(shí)要應(yīng)用現(xiàn)代技術(shù)讓語(yǔ)音識(shí)別系統(tǒng)更加智能化,掌握人們語(yǔ)言隨意性的部分規(guī)律,以達(dá)到最佳的識(shí)別效果。
2.增加詞匯量。系統(tǒng)可以識(shí)別的詞匯的數(shù)量是系統(tǒng)能夠做什么事情的一個(gè)重要度量。一個(gè)語(yǔ)音識(shí)別系統(tǒng)使用的聲學(xué)模型和語(yǔ)音模型如果太過(guò)于局限,當(dāng)用戶所講的詞匯超出系統(tǒng)已知的范圍時(shí),則語(yǔ)音識(shí)別系統(tǒng)不能準(zhǔn)確的識(shí)別出相應(yīng)的內(nèi)容,比如,當(dāng)突然從中文轉(zhuǎn)為英文、法文、俄文時(shí),計(jì)算機(jī)就會(huì)常常輸出混亂奇怪的結(jié)果。但是,隨著系統(tǒng)建模方法的不斷改進(jìn)、搜索算法效率的提高以及硬件資源的發(fā)展,未來(lái)的語(yǔ)音識(shí)別系統(tǒng)可能會(huì)做到詞匯量無(wú)限制和多種語(yǔ)言混合,這樣用戶在使用的時(shí)候可以不必在語(yǔ)種之間來(lái)回切換,這樣就能大大減少詞匯量的對(duì)語(yǔ)音識(shí)別系統(tǒng)的限制。
3.應(yīng)用拓展。語(yǔ)音識(shí)別技術(shù)可以用于把費(fèi)腦、費(fèi)力、費(fèi)時(shí)的機(jī)器操作變成一件很容易很有趣味性的事,比如,當(dāng)人們出現(xiàn)手忙、手不能及以及分身無(wú)術(shù)的場(chǎng)景時(shí),通過(guò)語(yǔ)音識(shí)別系統(tǒng)的模型構(gòu)造,則能夠在象駕駛室、危險(xiǎn)的工業(yè)場(chǎng)合、遠(yuǎn)距離信息獲取、家電控制等各個(gè)方面,語(yǔ)音識(shí)別技術(shù)可能帶動(dòng)一系列嶄新或更便捷功能的設(shè)備出現(xiàn),更加方便人的工作和生活。其應(yīng)用的范圍和前景非常廣泛。不僅能夠應(yīng)用于日常生活,更重要的會(huì)帶來(lái)生產(chǎn)方式的革命,是下一代智能化控制的基礎(chǔ)。