摘要:提出了一種識(shí)別多維語(yǔ)音信息的方法,用來(lái)同時(shí)識(shí)別說(shuō)話人身份、性別和情感信息,選擇身份特征參數(shù)I-vector向量表示語(yǔ)句特征。首先基于深度置信網(wǎng)絡(luò)(DBN)設(shè)計(jì)了一個(gè)性別相關(guān)的多維語(yǔ)音識(shí)別基線系統(tǒng),然后在基線系統(tǒng)基礎(chǔ)上又提出了一種基于漸進(jìn)式神經(jīng)網(wǎng)絡(luò)技術(shù)(Progressive Neural Network,ProgNets)的多維說(shuō)話人信息識(shí)別方法。在性別相關(guān)的基礎(chǔ)上,將輔助語(yǔ)音識(shí)別模型知識(shí)遷移學(xué)習(xí)到主語(yǔ)音識(shí)別模型中,進(jìn)而增強(qiáng)語(yǔ)音識(shí)別性能。實(shí)驗(yàn)結(jié)果表明,基線系統(tǒng)識(shí)別結(jié)果比非同時(shí)識(shí)別的單維語(yǔ)音識(shí)別DBN模型的平均識(shí)別率提升了4.73%,而基于ProgNets系統(tǒng)的多維系統(tǒng)識(shí)別精度比基線系統(tǒng)高1.8%。
注:因版權(quán)方要求,不能公開(kāi)全文,如需全文,請(qǐng)咨詢雜志社
北大期刊 下單
國(guó)際刊號(hào):1673-5439
國(guó)內(nèi)刊號(hào):32-1772/TN
雜志詳情