IP網(wǎng)絡(luò)中的語音處理主要需解決兩個問題:是在保證一定語音質(zhì)量的前提下盡可能降低編碼比特率;二是在IP網(wǎng)絡(luò)環(huán)境下保證一定的通話質(zhì)量。前者主要是語音編碼技術(shù)和靜音檢測;后者包括分組丟失補償、消除抖動和回波抵消技術(shù)
1、低比特率語音編碼
選擇語音編碼算法需要考慮四個方面的問題:編碼比特率、語音質(zhì)量、時延和算法復(fù)雜度。一般說來這些指標(biāo)是有矛盾的,比特率越低,線路利用率越高,但語音質(zhì)量會受到影響;在同樣比特率情況下,算法設(shè)計越復(fù)雜,語音質(zhì)量會有所提高,但處理時延將增加。因此,采用什么類型的編碼方案和算法,要根據(jù)實際需要在上述四個指標(biāo)中取得某種折中目前在PSTN中廣泛應(yīng)用的是PCM語音編碼,采用的是波形編碼技術(shù),PCM語音編碼的比特率為64kbit/s,受波形編碼類型技術(shù)的限制,一般說來,這類編碼的最低比特率為32kbit/s,即 ADPCM。若要進一步降低其比特率,特別是要實現(xiàn)低于16kbit/s的低比特率編碼,必須采用新的編碼技術(shù)。網(wǎng)絡(luò)電話采用參數(shù)編碼技術(shù),參數(shù)編碼通過模擬人的發(fā)聲器官,提取模型參數(shù)來降低語音信息編碼率。這種技術(shù)很早就提出了,過去由于算法過于復(fù)雜而無法實用,直至高性能的數(shù)字信號處理(DSP)專用芯片的研制成功才使其得到廣泛的使用。目前網(wǎng)絡(luò)電話一般使用ITUT定義的低比特率編碼標(biāo)準(zhǔn),其比特率為5.3~16kbi/s,均為中、低復(fù)雜度編碼算法,語音分組長度在30ms以下,語音質(zhì)量較好。
目前,主要采用的網(wǎng)絡(luò)電話編碼技術(shù)有ITUT定義的G.729、G.723(G.723.1)等其中G.729可將經(jīng)過采樣的64kbit/s語音以幾乎不失真的質(zhì)量壓縮至8kbit/s,很適合在VoIP系統(tǒng)中使用。G.723.1采用5.3/6.3kbit/s雙速率語音編碼,其語音質(zhì)量好,但是處理時延較大,它是目前已標(biāo)準(zhǔn)化的最低速率的語音編碼算法
2、靜音檢測
用戶打電話時,并不是總在占用通話信道,雙方都有講話的時間、聽對方講話的時間思考停頓的時間以及在講話過程中的停頓時間。根據(jù)傳統(tǒng)電話業(yè)務(wù)的統(tǒng)計,一方用戶實際占用通話信道的時間不會超過整個通話時間的40%。在網(wǎng)絡(luò)電話業(yè)務(wù)中也存在這個問題。由于網(wǎng)絡(luò)電話業(yè)務(wù)是將語音信號轉(zhuǎn)化為語音分組發(fā)送,在用戶沒有講話時,可以不發(fā)送語音分組,從而進一步降低語音比特率。這是通過檢測用戶是否發(fā)音來實現(xiàn)的,即當(dāng)用戶的語音信號能量低于一定門限值時就認為是靜默狀態(tài),不再發(fā)送語音分組。在進行靜音檢測時有兩個問題需要注意:一是背景噪聲問題,即如何在較大的背景噪聲中檢測靜音;二是“前后沿剪切”( clipping)問題。所謂前后沿剪切就是還原語音時,由于從用戶開始講話到編碼器檢測到語音信號之間有一定的判斷門限和時延,有時語音波形的開始和結(jié)束部分會作為靜音被丟掉,因此需要在突發(fā)語音分組前面或后面增加一個語音分組進行平滑以解決這一問題。
在實際使用中,如果出現(xiàn)長時間的靜默,會使用戶感到很不自然。因此實際上發(fā)送端常常會在靜音期間發(fā)送反映背景噪聲特點的分組,使接收端能生成背景噪聲,即所謂的舒適噪聲。
3、分組丟失補償
IP網(wǎng)絡(luò)是按照“盡力傳送”的原則傳送分組,它無法避免由于傳輸時延或網(wǎng)絡(luò)擁塞等原因造成分組被丟棄,有時線路誤碼或者網(wǎng)絡(luò)路由故障也會導(dǎo)致分組丟失。由于接收端網(wǎng)關(guān)的低比特率聲碼器采用線性預(yù)測編碼技術(shù),其當(dāng)前值是通過以前的歷史值線性組合而得,因此在丟失一個語音分組時,可通過內(nèi)插的方法近似地恢復(fù)丟失分組。ITUT定義的標(biāo)準(zhǔn)語音編碼的建議中,已經(jīng)在解碼器部分中包含了分組丟失補償這功能。但在實際使用中,如果網(wǎng)絡(luò)電話語音分組連續(xù)丟失兩個以上,則表明此時網(wǎng)絡(luò)連接狀態(tài)很差,即使使用分組丟失補償功能,通話效果也會比較差,但由于語音通信對分組丟失的容忍度遠比數(shù)據(jù)通信強,所以一般情況下通話質(zhì)量仍然可以接受。
4、回波抵消
對于PC到PC的通話來說,由于語音信號的接收和發(fā)送經(jīng)由不同的物理線路,因此不存在回音的問題。如果IP網(wǎng)和PSTN互連,通信雙方至少有一方是二線制電話,涉及有混合線圈的2/4線轉(zhuǎn)換電路,就會產(chǎn)生回音。其原理如圖1-2-1所示。從理論上說,當(dāng)混合線圈的阻抗完全平衡時,混合線圈對端間的阻抗應(yīng)為無窮大,這樣網(wǎng)絡(luò)電話發(fā)出的語音信號只能送到PSTN電話,不會串到對端??墒菍嶋H上混合線圈很難做到完全平衡,這樣一部分信號將漏到對端返回網(wǎng)絡(luò)電話,如果傳輸時延較長,發(fā)話者就會感到明顯的回聲,嚴重干擾通話。由于IP網(wǎng)絡(luò)時延較大,因此必須采用回波控制。
回波產(chǎn)生機理
目前回波控制均采用回波抵消方法,即通過自適應(yīng)方法估計回波信號的大小,然后在接收信號中減去此估計值。這種方法雖然比較復(fù)雜,但是已有專用芯片推出,因此得到廣泛的應(yīng)用。在IP網(wǎng)絡(luò)和PSTN互通的情況下,回波抵消功能一般由網(wǎng)關(guān)完成。
5、處理語音時延抖動的技術(shù)
IP網(wǎng)絡(luò)的一個特征就是網(wǎng)絡(luò)時延與網(wǎng)絡(luò)時延抖動,這可能導(dǎo)致IP電語音質(zhì)下降。網(wǎng)絡(luò)時延是指一個IP包在網(wǎng)絡(luò)上傳輸平均所需的時間,網(wǎng)絡(luò)時延抖動是指IP包傳輸時間的長短變化。為了消除時延抖動,一般采用抖動緩沖技術(shù),即在接收端設(shè)定一個較大的緩沖池緩存接收到的語音包,然后從緩沖池中均勻地取出語音包解壓,播放給受話者。這種緩沖技術(shù)可以在一定限度內(nèi)有效地處理語音時延抖動,并提高音質(zhì);但這又會帶來附加的時延。