主頁 > 知識(shí)庫 > 捷通華聲:風(fēng)雨兼程17載,中國人工智能公司中的甲骨文

捷通華聲:風(fēng)雨兼程17載,中國人工智能公司中的甲骨文

熱門標(biāo)簽:科大訊飛語音識(shí)別系統(tǒng) Win7旗艦版 蘋果 鐵路電話系統(tǒng) Linux服務(wù)器 解決方案 阿里云 電銷機(jī)器人
  人工智能在廣闊的領(lǐng)域?qū)崿F(xiàn)了技術(shù)突破,讓AI的表現(xiàn)形式(載體)上,完成了交互體驗(yàn)升級(jí)換代,比如視覺領(lǐng)域里的避障技術(shù)、圖像識(shí)別領(lǐng)域里的人臉識(shí)別,還有語音領(lǐng)域中的語音交互。而語音交互主要涉及語音識(shí)別、語義理解、機(jī)器翻譯、語音合成和麥克風(fēng)陣列。我們以麥克風(fēng)陣列為例,看看它是如何被捷通華聲攻克?
  神秘的麥克風(fēng)陣列,是什么樣一種技術(shù)?
  麥克風(fēng)陣列(Smart Microphone Array),從字面上,指的是麥克風(fēng)的排列。也就是說由一定數(shù)目的聲學(xué)傳感器(一般是麥克風(fēng))組成,用來對(duì)聲場(chǎng)的空間特性進(jìn)行采樣并處理的系統(tǒng)。一般應(yīng)用于語音處理的按一定規(guī)則排列的多個(gè)麥克風(fēng)系統(tǒng),也可以簡(jiǎn)單理解為2個(gè)以上麥克風(fēng)組成的錄音系統(tǒng)。
  麥克風(fēng)陣列一般來說有直線形、環(huán)線形和球狀之分,嚴(yán)謹(jǐn)?shù)膽?yīng)該說成一字、十字、平面、螺旋、球形及無規(guī)則陣列等。至于麥克風(fēng)陣列的陣元數(shù)量,也就是麥克風(fēng)數(shù)量,可以從2個(gè)到上千個(gè)不等。
  看捷通華聲如何攻克麥克風(fēng)陣列的四大難點(diǎn)!
  如此復(fù)雜的麥克風(fēng)陣列主要應(yīng)用于工業(yè)和國防領(lǐng)域,消費(fèi)領(lǐng)域(例如機(jī)器人領(lǐng)域)考慮到成本會(huì)簡(jiǎn)化很多,但也需要攻克四大技術(shù)難點(diǎn):
  01噪音抑制:太嘈雜了,聽不清!
  語音識(shí)別在有些場(chǎng)合需要完全去除噪聲,通話系統(tǒng)中則需要的技術(shù)則是噪聲去除。這里說的噪聲一般指環(huán)境噪聲,比如空調(diào)噪聲,這類噪聲通常不具有空間指向性,能量也不是特別大,不會(huì)掩蓋正常的語音,只是影響了語音的清晰度和可懂度。一般情況下,不怎么做強(qiáng)噪聲環(huán)境下的處理,只需滿足日常場(chǎng)景的語音交互就夠了。
  02聲源定位:聲音太多,在哪里?
  現(xiàn)實(shí)中,聲源的位置是不斷變化的,這對(duì)于麥克風(fēng)收音來說,是個(gè)障礙。麥克風(fēng)陣列則可以進(jìn)行聲源定位,聲源定位技術(shù)是指使用麥克風(fēng)陣列來計(jì)算目標(biāo)說話人的角度和距離,從而實(shí)現(xiàn)對(duì)目標(biāo)說話人的跟蹤以及后續(xù)的語音定向拾取,是人機(jī)交互、音視頻會(huì)議等領(lǐng)域非常重要的前處理技術(shù)。所以麥克風(fēng)陣列技術(shù)不限制說話人的運(yùn)動(dòng),不需要移動(dòng)位置以改變其接收方向,具有靈活的波束控制、較高的空間分辨率、高的信號(hào)增益與較強(qiáng)的抗干擾能力等特點(diǎn),因而成為智能語音處理系統(tǒng)中捕捉說話人語音的重要手段。
  03混響消除:享受混響,卻麻煩!
  一般我們聽音樂時(shí),希望有混響的效果,這是聽覺上的一種享受。合適的混響會(huì)使得聲音圓潤(rùn)動(dòng)聽、富有感染力。
  混響(Reverberation)現(xiàn)象指的是聲波在室內(nèi)傳播時(shí),要被墻壁、天花板、地板等障礙物形成反射聲,并和直達(dá)聲形成疊加;而當(dāng)聲源停止發(fā)聲后,聲波在房間內(nèi)要經(jīng)過多次反射和吸收,似乎若干個(gè)聲波混合持續(xù)一段時(shí)間。
  混響會(huì)嚴(yán)重影響語音信號(hào)處理,比如互相關(guān)函數(shù)或者波束主瓣,降低測(cè)向精度。由于混響則會(huì)使得不同步的語音相互疊加,帶來了音素的交疊掩蔽效應(yīng)(Phoneme Overlap Effect),從而嚴(yán)重影響語音識(shí)別效果。
  混響去除的效果很大程度影響了語音識(shí)別的效果,因此利用麥克風(fēng)陣列去混響的主要方法有以下幾種:
  a.基于盲語音增強(qiáng)的方法(Blind signal enhancement approach),即將混響信號(hào)作為普通的加性噪聲信號(hào),在這個(gè)上面應(yīng)用語音增強(qiáng)算法。
  b.基于波束形成的方法(Beamforming based approach),通過將多麥克風(fēng)對(duì)收集的信號(hào)進(jìn)行加權(quán)相加,在目標(biāo)信號(hào)的方向形成一個(gè)拾音波束,同時(shí)衰減來自其他方向的反射聲。
  c.基于逆濾波的方法(An inverse filterin gapproach),通過麥克風(fēng)陣列估計(jì)房間的房間沖擊響應(yīng)(Room Impulse Response,RIR),設(shè)計(jì)重構(gòu)濾波器來補(bǔ)償來消除混響。
  良好的麥克風(fēng)陣列的去混響技術(shù)能很好的對(duì)房間的混響情況進(jìn)行自適應(yīng)的估計(jì),從而很好的進(jìn)行純凈信號(hào)的還原,顯著的提升了語音聽感和識(shí)別效果,在測(cè)試對(duì)比中,多種混響時(shí)間下識(shí)別效果接近手機(jī)近講水平。
  嚴(yán)格來說,這里說的“回聲消除”不應(yīng)該叫回聲,應(yīng)該叫“自噪聲”?;芈暿腔祉懙难由旄拍?,這兩者的區(qū)別就是回聲的時(shí)延更長(zhǎng)。一般來說,超過100毫秒時(shí)延的混響,人類能夠明顯區(qū)分出,似乎一個(gè)聲音同時(shí)出現(xiàn)了兩次,我們就叫做回聲,比如天壇著名的回聲壁。實(shí)際上,這里所指的是語音交互設(shè)備自己發(fā)出的聲音,比如Echo音箱,當(dāng)播放歌曲的時(shí)候若叫Alexa,這時(shí)候麥克風(fēng)陣列實(shí)際上采集了正在播放的音樂和用戶所叫的Alexa聲音,顯然語音識(shí)別無法識(shí)別這兩類聲音?;芈曄褪且サ羝渲械囊魳沸畔⒍槐A粲脩舻娜寺?,之所以叫回聲消除,只是延續(xù)大家的習(xí)慣而已,其實(shí)是不恰當(dāng)?shù)摹?/div>
  04云端識(shí)別:聲音很多,卻好用!
  麥克風(fēng)陣列增益,主要是解決拾音距離的問題,若信號(hào)較小,語音識(shí)別同樣不能保證,通過陣列處理可以適當(dāng)加大語音信號(hào)的能量。
  而波束形成是指將一定幾何結(jié)構(gòu)排列的麥克風(fēng)陣列的各麥克風(fēng)輸出信號(hào)經(jīng)過處理(例如加權(quán)、時(shí)延、求和等)形成空間指向性的方法。波束形成主要是抑制主瓣以外的聲音干擾,這里也包括人聲,比如幾個(gè)人圍繞機(jī)器人談話的時(shí)候,機(jī)器人只會(huì)識(shí)別其中一個(gè)人的聲音;但對(duì)于機(jī)器人來說,能同時(shí)識(shí)別不同距離和不同方位的聲源,變得尤為重要——這也代表了人工智能的語音交互領(lǐng)域趨于成熟!
  對(duì)于語音交互中的模型匹配,主要是和語音識(shí)別以及語義理解進(jìn)行匹配,使得語音交互成為一個(gè)完整的信號(hào)鏈,從麥克風(fēng)陣列開始的語音流不可能割裂的存在,必然需要模型匹配在一起。實(shí)際上,效果較好的語音交互專用麥克風(fēng)陣列,通常是兩套算法,一套內(nèi)嵌于硬件實(shí)時(shí)處理,另外一套服務(wù)于云端匹配語音處理;而“本地+云端”中,成立于世紀(jì)之交2000年的捷通華聲是一家專注于智能語音、智能圖像、生物特征識(shí)別、語義理解等人工智能技術(shù)的研究與應(yīng)用,全面發(fā)展人工智能云服務(wù)的高新技術(shù)企業(yè)。
  捷通華聲的靈云平臺(tái)在2014年面向人工智能產(chǎn)業(yè)全面開放,并以“云+端”方式,為產(chǎn)業(yè)界提供語音合成(TTS)、語音識(shí)別(ASR)、聲紋識(shí)別(VPR)、手寫識(shí)別(HWR)、光學(xué)字符識(shí)別(OCR)、指紋識(shí)別(FPR)、機(jī)器翻譯(MT)、自然語言理解(NLU)等全方位的人工智能云服務(wù);服務(wù)于百度導(dǎo)航、搜狗導(dǎo)航、小米、樂視、京東商場(chǎng)、攜程網(wǎng)、去哪兒網(wǎng)、奔馳、中國農(nóng)業(yè)銀行、導(dǎo)航犬、嘀嘀打車、快的打車、漢字英雄、天行聽書、天行輸入法、觸寶輸入法等知名公司。
 

標(biāo)簽:湘西 湖州 三門峽 呼倫貝爾 邵陽 辛集 安陽 畢節(jié)

巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《捷通華聲:風(fēng)雨兼程17載,中國人工智能公司中的甲骨文》,本文關(guān)鍵詞  ;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題,煩請(qǐng)?zhí)峁┫嚓P(guān)信息告之我們,我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無關(guān)。
  • 相關(guān)文章
  • 收縮
    • 微信客服
    • 微信二維碼
    • 電話咨詢

    • 400-1100-266