主頁 > 知識(shí)庫 > OC16海天瑞聲與清華大學(xué)中英文混合語音識(shí)別競賽結(jié)果揭曉

OC16海天瑞聲與清華大學(xué)中英文混合語音識(shí)別競賽結(jié)果揭曉

熱門標(biāo)簽:阿里云 鐵路電話系統(tǒng) 科大訊飛語音識(shí)別系統(tǒng) 解決方案 Win7旗艦版 蘋果 Linux服務(wù)器 電銷機(jī)器人
  Oriental COCOSDA2016于2016年10月26日-28日,在美麗的巴厘島如期召開。O-COCOSDA是東方語音數(shù)據(jù)庫設(shè)計(jì)、構(gòu)建、評估、研究與應(yīng)用等領(lǐng)域最重要的會(huì)議之一。逾百名來自亞太地區(qū)各國的語言學(xué)專家、語音技術(shù)研究者和基礎(chǔ)語音數(shù)據(jù)資源供應(yīng)商出席了會(huì)議。
  在當(dāng)今世界,英語無疑是一種最強(qiáng)勢的語言。由于歷史原因和不可逆轉(zhuǎn)的國際化趨勢,英語對其他國家的語言帶來了巨大的影響,比如混合語言(Mixlingual)現(xiàn)象的產(chǎn)生。
  在中國的大城市里,那些在海外受過高等教育、或在跨國公司工作的高級白領(lǐng)們,講中文的時(shí)候夾雜一些英語單詞,已經(jīng)是一種司空見慣的現(xiàn)象,比如“我非常努力,不想成為人生的loser(失敗者)”。在一些長期受英國殖民統(tǒng)治的國家,如印度,本地語言和英語單詞混合,是當(dāng)?shù)厝巳粘=涣髦凶顬槠毡榈恼Z言現(xiàn)象。即便完全沒有讀過書的人,在交談中也會(huì)夾雜個(gè)把英語單詞。筆者曾在印度旅居多年,雖然不懂印地語,但并不妨礙在一定程度上揣測本地人之間交流的大致內(nèi)容,因?yàn)樗麄冊诮徽勚惺褂么罅康挠⒄Z單詞。
  這種語碼混合(Code-mixing)現(xiàn)象,不僅帶來了各國本土語言的微妙演化,也同時(shí)為語音識(shí)別技術(shù)帶來了巨大的挑戰(zhàn)。目前,各大語音識(shí)別引擎巨頭,在單一語言的識(shí)別率方面,往往能達(dá)到90%以上、甚至高達(dá)95%的識(shí)別準(zhǔn)確率。但遇到包含語碼混合現(xiàn)象的語音時(shí),其識(shí)別準(zhǔn)確率會(huì)大幅下降。其原因雖是多方面的,但其中一個(gè)最主要的原因是:大規(guī)模、高品質(zhì)的混合語言訓(xùn)練數(shù)據(jù)(比如中、英混讀語音訓(xùn)練數(shù)據(jù))目前還很少見。
  在這次會(huì)議上,對于混合語言現(xiàn)象的研究是來自各國參會(huì)代表們普遍關(guān)注的重點(diǎn)之一,有若干篇會(huì)議論文談及混合語音數(shù)據(jù)庫和基于這些數(shù)據(jù)庫之上所做的混合語音識(shí)別研究成果。中國的語音技術(shù)研究水平,一直在亞洲、乃至全世界保持領(lǐng)先水平。在本次會(huì)議上,來自國內(nèi)的研究機(jī)構(gòu)和企業(yè),在來自亞洲其他國家同行們的面前,展現(xiàn)了中國在該領(lǐng)域的獨(dú)特風(fēng)采!
  作為國內(nèi)領(lǐng)先的語音技術(shù)研究機(jī)構(gòu),清華大學(xué)語音語言技術(shù)中心(CSLT)聯(lián)合北京海天瑞聲科技有限公司(SpeechOcean),國內(nèi)唯一具有多達(dá)110種語言能力的數(shù)據(jù)資源與服務(wù)提供商,在此次會(huì)議上發(fā)起了“Special Session for Mixlingual Speech Processing”(混合語言語音處理特殊議題),其內(nèi)容包括(但不限于)混合語言的語音學(xué)分析、語音識(shí)別、語音合成、說話人識(shí)別、語言理解等混合語言處理任務(wù)。
  除此之外,清華大學(xué)和海天瑞聲還在會(huì)議上聯(lián)合發(fā)起了一個(gè)“中英文混合語音識(shí)別競賽(OC16 MixASR-CHEN Challenge)”。
  該混合語音特殊議題和語音識(shí)別競賽,面向亞洲所有的大學(xué)、科研機(jī)構(gòu)以及企業(yè)的語音技術(shù)研發(fā)機(jī)構(gòu)發(fā)起召集。清華大學(xué)CSLT提供了實(shí)驗(yàn)Baseline,實(shí)驗(yàn)數(shù)據(jù)庫OC16-CE80則由北京海天瑞聲科技有限公司提供。
  OC16-CE80是一個(gè)錄音總長度為80個(gè)小時(shí)、包括1445名發(fā)音人的中英文混合語音數(shù)據(jù)庫,也是國內(nèi)目前罕見的大規(guī)模中英文混合語音數(shù)據(jù)庫。該語音識(shí)別數(shù)據(jù)庫是在目前市場占有率最高的三種手機(jī)操作平臺(tái)上進(jìn)行錄音(其中Android系統(tǒng)占50%,iPhone占30%)??紤]到在大中城市里、受過良好教育的年輕一代更傾向于“中英文混合”式的語言風(fēng)格,在發(fā)音人的地域選擇、年齡分布、語料來源等方面,也做了精心的設(shè)計(jì)和安排。據(jù)海天瑞聲的陳清介紹,目前還有100多個(gè)小時(shí)的數(shù)據(jù)沒有公布,這些數(shù)據(jù)將在以后類似的學(xué)術(shù)交流活動(dòng)中逐步公布出來。
  該特殊議題收集到了若干篇論文,其中,由“清華大學(xué)”和“海天瑞聲”的合作論文《OC16-CE80:AChinese-English Mixlingual Data base and A Speech Recognition Baseline》獲得了Oriental COCOSDA2016最佳論文獎(jiǎng)。
(“清華大學(xué)”與“海天瑞聲”合作論文獲得最佳論文獎(jiǎng))
  在若干提交競賽結(jié)果的參賽隊(duì)伍中,三星中國研究院(Samsung RD Institute of China-Beijing)力拔頭籌,以中英文語音識(shí)別綜合WER達(dá)到14.75%的成績,在競賽中獲得了第一名,充分展示了中國語音技術(shù)研究者的實(shí)力!除此之外,三星中國研究院還獲得了會(huì)議頒發(fā)的“Best Performance Award(最佳表現(xiàn)獎(jiǎng))”
  該競賽的第二由上海師范大學(xué)獲得,中英文識(shí)別綜合WER達(dá)到16.11%;第三名是臺(tái)灣中央研究院與華碩Da Vinci Innovation Lab合作獲得,中英文識(shí)別綜合WER達(dá)到19.05%;
  海天瑞聲的市場總監(jiān)陳清,在會(huì)議上介紹了該次競賽所使用的數(shù)據(jù)庫“OC16-CE80”,及其他混合語言數(shù)據(jù)庫,包括一個(gè)臺(tái)灣語+英語的混合語音庫,四個(gè)在建的混合語音庫(印尼語+英語、印地語+英語、日語+英語、韓語+英語)。海天瑞聲以其多達(dá)110種語言的數(shù)據(jù)服務(wù)能力、近10萬小時(shí)的多種語音識(shí)別和語音合成數(shù)據(jù)庫資源,及多語種文本和發(fā)音詞典等,得到了與會(huì)代表們的普遍關(guān)注和垂詢。同時(shí),“海天瑞聲”也是目前國內(nèi)唯一有能力提供稀有語種數(shù)據(jù)服務(wù)的供應(yīng)商,包括北朝鮮語、希伯來語、加泰羅尼亞語、阿拉伯語、捷克語、波蘭語等,給聽眾們留下了深刻的印象。
  海天瑞聲表示未來將攜手各大國際科研機(jī)構(gòu)推出更多高質(zhì)量免費(fèi)的科研學(xué)術(shù)數(shù)據(jù)。并介紹了在即將舉辦的APSIPA16(2016年12月14日在韓國濟(jì)州島召開)上,與清華大學(xué)CSLT共同舉辦的Oriental Multiple Language Special SessionLanguage Recognition Challenge。這個(gè)活動(dòng)也是由海天瑞聲提供免費(fèi)實(shí)驗(yàn)數(shù)據(jù),并由清華大學(xué)提供實(shí)驗(yàn)Baseline。
(清華大學(xué)CSLT的王東老師,在會(huì)議上介紹實(shí)驗(yàn)baseline,并宣布競賽結(jié)果)
(海天瑞聲的陳清在介紹試驗(yàn)數(shù)據(jù)庫詳情)
  獲獎(jiǎng)人員與會(huì)議組織者合影
三星中國研究院的余驍捷在接受會(huì)議主席頒獎(jiǎng)

標(biāo)簽:呼倫貝爾 辛集 湖州 湘西 三門峽 畢節(jié) 邵陽 安陽

巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《OC16海天瑞聲與清華大學(xué)中英文混合語音識(shí)別競賽結(jié)果揭曉》,本文關(guān)鍵詞  ;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題,煩請?zhí)峁┫嚓P(guān)信息告之我們,我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無關(guān)。
  • 相關(guān)文章
  • 收縮
    • 微信客服
    • 微信二維碼
    • 電話咨詢

    • 400-1100-266