熟女俱乐部五十路二区av,又爽又黄禁片视频1000免费,国产卡一卡二卡三无线乱码新区,中文无码一区二区不卡αv,中文在线中文a

新聞中心

EEPW首頁(yè) > 消費(fèi)電子 > 設(shè)計(jì)應(yīng)用 > 基于DTW的編碼域說(shuō)話人識(shí)別研究

基于DTW的編碼域說(shuō)話人識(shí)別研究

作者: 時(shí)間:2010-10-14 來(lái)源:網(wǎng)絡(luò) 收藏

說(shuō)話人識(shí)別又被稱為話者識(shí)別,是指通過(guò)對(duì)說(shuō)話人語(yǔ)音信號(hào)的分析處理,自動(dòng)確認(rèn)說(shuō)話人是否在所記錄的話者集合中,以及進(jìn)一步確認(rèn)說(shuō)話人的身份。說(shuō)話人識(shí)別的基本原理如圖1所示。

本文引用地址:http://www.bjwjmy.cn/article/166450.htm

按照語(yǔ)音的內(nèi)容,說(shuō)話人識(shí)別可以分為文本無(wú)關(guān)的(Text-Independent)和文本相關(guān)的(Text-Dependent)兩種。文本無(wú)關(guān)的識(shí)別系統(tǒng)不規(guī)定說(shuō)話人的發(fā)音內(nèi)容,模型建立相對(duì)困難,但用戶使用方便。與文本有關(guān)的說(shuō)話人識(shí)別系統(tǒng)要求用戶按照規(guī)定的內(nèi)容發(fā)音,而識(shí)別時(shí)也必須按規(guī)定的內(nèi)容發(fā)音,因此可以達(dá)到較好的識(shí)別效果。
 隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,通過(guò)Internet網(wǎng)絡(luò)傳遞語(yǔ)音的網(wǎng)絡(luò)電話VoIP(Voice over IP)技術(shù)發(fā)展迅速,已經(jīng)成為人們?nèi)粘=涣鞯闹匾侄?,越?lái)越多的用戶拋棄傳統(tǒng)的通信方式,通過(guò)計(jì)算機(jī)網(wǎng)絡(luò)等媒介進(jìn)行語(yǔ)音交流。由于VoIP工作方式的特點(diǎn),語(yǔ)音在傳輸中經(jīng)過(guò)了語(yǔ)音編譯碼處理,VoIP設(shè)備端口同時(shí)要處理多路、海量的壓縮話音數(shù)據(jù)。所以VoIP說(shuō)話人識(shí)別技術(shù)主要研究的是如何高速、低復(fù)雜度地針對(duì)解碼參數(shù)和壓縮碼流進(jìn)行說(shuō)話人識(shí)別。
 現(xiàn)有的針對(duì)編碼域說(shuō)話人識(shí)別方法的研究主要集中在編碼域語(yǔ)音特征參數(shù)的提取上,香港理工大學(xué)研究從G.729和G.723編碼比特流以及殘差中提取信息,并采用了分?jǐn)?shù)補(bǔ)償?shù)姆椒āV袊?guó)科學(xué)技術(shù)大學(xué)主要研究了針對(duì)AMR語(yǔ)音編碼的說(shuō)話人識(shí)別。西北工業(yè)大學(xué)在說(shuō)話人確認(rèn)中針對(duì)不同的語(yǔ)音編碼差異進(jìn)行了補(bǔ)償算法研究,并且研究了直接在G.729編碼的比特流中提取參數(shù)的方法。說(shuō)話人模型則主要采用在傳統(tǒng)說(shuō)話人識(shí)別中應(yīng)用最廣泛的GMM-UBM(Gaussian Mixture Model-Universal Background Model)。GMM-UBM的應(yīng)用效果和混元數(shù)目密切相關(guān),在保證識(shí)別率的基礎(chǔ)上,其處理速度無(wú)法滿足VoIP環(huán)境下高速說(shuō)話人識(shí)別的需求。
 本文研究VoIP語(yǔ)音流中G.729編碼域的說(shuō)話人實(shí)時(shí)識(shí)別,將DTW識(shí)別算法成功應(yīng)用在G.729編碼域的文本相關(guān)的說(shuō)話人實(shí)時(shí)識(shí)別。
1 G.729編碼比特流中的特征提取
1.1 G.729編碼原理

 ITU-T在1996年3月公布G.729編碼,其編碼速率為8 kb/s,采用了對(duì)結(jié)構(gòu)代數(shù)碼激勵(lì)線性預(yù)測(cè)技術(shù)(CS-ACELP),編碼結(jié)果可以在8 kb/s的碼率下得到合成音質(zhì)不低于32 kb/s ADPCM的水平。 G.729的算法延時(shí)為15 ms。由于G.729具有很高的語(yǔ)音質(zhì)量和很低的延時(shí),被廣泛地應(yīng)用在數(shù)據(jù)通信的各個(gè)領(lǐng)域,如VoIP和H.323網(wǎng)上多媒體通信系統(tǒng)等。
G.729的編碼過(guò)程如下:輸入8 kHz采樣的數(shù)字語(yǔ)音信號(hào)先經(jīng)過(guò)高通濾波預(yù)處理,每10 ms幀作一次線性預(yù)測(cè)分析,計(jì)算10階線性預(yù)測(cè)濾波器系數(shù),然后把這些系數(shù)轉(zhuǎn)換為線譜對(duì)(LSP)參數(shù),采用兩級(jí)矢量量化技術(shù)進(jìn)行量化。自適應(yīng)碼本搜索時(shí),以原始語(yǔ)音與合成語(yǔ)音的誤差知覺(jué)加權(quán)最小為測(cè)度進(jìn)行搜索。固定碼本采用代數(shù)碼本機(jī)構(gòu)。激勵(lì)參數(shù)(自適應(yīng)碼本和固定碼本參數(shù))每個(gè)子幀(5 ms,40個(gè)樣點(diǎn))確定一次。
1.2 特征參數(shù)提取
直接從G.729 編碼流中按照量化算法解量化可以得到LSP參數(shù)。由于后段的說(shuō)話人識(shí)別系統(tǒng)還需要激勵(lì)參數(shù),而在激勵(lì)參數(shù)的計(jì)算過(guò)程中經(jīng)過(guò)了LSP的插值平滑,所以為了使特征矢量中聲道和激勵(lì)參數(shù)能準(zhǔn)確地對(duì)應(yīng)起來(lái),要對(duì)解量化的LSP參數(shù)采用插值平滑。


上一頁(yè) 1 2 3 下一頁(yè)

關(guān)鍵詞: 編解碼器 音頻

評(píng)論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉