主頁 > 知識(shí)庫 > 多語種機(jī)器翻譯引擎 助力專利審查和檢索的“ 神器”

多語種機(jī)器翻譯引擎 助力專利審查和檢索的“ 神器”

熱門標(biāo)簽:檢查注冊表項(xiàng) 電話銷售團(tuán)隊(duì) 電銷機(jī)器人多少錢一臺(tái) 國美全國運(yùn)營中心 記事本 地方門戶網(wǎng)站 蘋果 呼叫中心
來源: 中國知識(shí)產(chǎn)權(quán)報(bào)/中國知識(shí)產(chǎn)權(quán)資訊網(wǎng)
中國專利信息中心機(jī)器翻譯團(tuán)隊(duì)在討論問題。(資料圖)
中國專利信息中心工作人員在編寫代碼。(資料圖)

  實(shí)時(shí)翻譯、批量翻譯、語種自動(dòng)識(shí)別、翻譯記憶……提起擁有這些功能的“神器”——多語種專利文獻(xiàn)機(jī)器翻譯引擎(下稱多語種機(jī)器翻譯引擎),用戶無不豎起大拇指。

  實(shí)際上,這款“神器”是中國專利信息中心(下稱信息中心)依據(jù)專利文獻(xiàn)特點(diǎn)對(duì)通用機(jī)器翻譯引擎的定制化產(chǎn)品。自2017年起,信息中心引入神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯技術(shù),打造多語種機(jī)器翻譯引擎,為專利信息加工、傳播、咨詢等多項(xiàng)業(yè)務(wù)提供了有力支撐。此外,該引擎也幫助審查員和社會(huì)公眾跨越語言障礙,更便捷地從文獻(xiàn)中獲取有價(jià)值的信息,進(jìn)而促進(jìn)知識(shí)產(chǎn)權(quán)信息的高效利用,充分發(fā)揮了知識(shí)產(chǎn)權(quán)信息對(duì)經(jīng)濟(jì)和社會(huì)發(fā)展的驅(qū)動(dòng)作用。

  打造系統(tǒng) 攻克難題

  近年來,在知識(shí)產(chǎn)權(quán)促進(jìn)創(chuàng)新高質(zhì)量發(fā)展的背景下,知識(shí)產(chǎn)權(quán)信息日益成為經(jīng)濟(jì)和社會(huì)發(fā)展的重要支撐,成為國與國之間競爭的戰(zhàn)略資源。充分挖掘知識(shí)產(chǎn)權(quán)信息的價(jià)值,發(fā)揮其對(duì)經(jīng)濟(jì)高質(zhì)量發(fā)展的驅(qū)動(dòng)作用,是建設(shè)知識(shí)產(chǎn)權(quán)強(qiáng)國和科技強(qiáng)國的必經(jīng)之路和重要抓手。

  而具體到我國知識(shí)產(chǎn)權(quán)特別是專利事業(yè)發(fā)展實(shí)踐中,專利申請數(shù)量的快速上升,給專利審查帶來了巨大的壓力和挑戰(zhàn)。與此同時(shí),專利權(quán)人、創(chuàng)新主體和社會(huì)公眾也對(duì)高質(zhì)量的機(jī)器翻譯有更迫切的需求。據(jù)介紹,在多語種機(jī)器翻譯系統(tǒng)建設(shè)之前,神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯技術(shù)憑借其優(yōu)異的翻譯性能成為通用領(lǐng)域機(jī)器翻譯的主流技術(shù),為提升翻譯質(zhì)量和效率、滿足應(yīng)用需求提供了技術(shù)支撐。

  “然而,神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯存在詞表受限、先驗(yàn)知識(shí)運(yùn)用不足、語料匱乏和稀缺資源語種的翻譯效果不理想等問題,同時(shí)由于專利文獻(xiàn)涉及的語種多、領(lǐng)域廣、專業(yè)術(shù)語豐富,通用型的機(jī)器翻譯系統(tǒng)亦不能滿足高質(zhì)量和高效率的專利文獻(xiàn)翻譯需求。不僅如此,專利文獻(xiàn)內(nèi)容廣博、科技術(shù)語多、句法結(jié)構(gòu)復(fù)雜、符號(hào)應(yīng)用廣泛等特點(diǎn)導(dǎo)致機(jī)器翻譯技術(shù)在專利文獻(xiàn)翻譯實(shí)踐中面臨諸多挑戰(zhàn),專利文獻(xiàn)數(shù)據(jù)的多源異構(gòu)性、數(shù)據(jù)格式多樣以及數(shù)據(jù)噪聲等問題也對(duì)機(jī)器翻譯質(zhì)量造成不利影響?!毙畔⒅行南嚓P(guān)負(fù)責(zé)人在接受本報(bào)記者采訪時(shí)表示。

  在解決上述難題的過程中,信息中心在知識(shí)產(chǎn)權(quán)信息技術(shù)開發(fā)利用領(lǐng)域的優(yōu)勢逐漸體現(xiàn)了出來。由于長期承擔(dān)專利文獻(xiàn)翻譯工作,信息中心積累了豐富的專利文獻(xiàn)翻譯經(jīng)驗(yàn)和數(shù)據(jù)資源優(yōu)勢,在采用先進(jìn)的神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯等人工智能技術(shù)的同時(shí),結(jié)合自身擁有的高質(zhì)量平行語料、專業(yè)化的數(shù)據(jù)分析團(tuán)隊(duì)和多語言翻譯人才,不斷探索打造適用于專利領(lǐng)域的多語種機(jī)器翻譯系統(tǒng)。

  基于上述背景,2019年,適用于專利領(lǐng)域的多語種機(jī)器翻譯系統(tǒng)正式問世。據(jù)了解,該系統(tǒng)實(shí)現(xiàn)了專利文獻(xiàn)機(jī)器翻譯全領(lǐng)域覆蓋,可以為審查員和社會(huì)公眾提供高質(zhì)量的機(jī)器翻譯結(jié)果,并能夠根據(jù)客戶需要提供精準(zhǔn)化、定制化、專業(yè)化的機(jī)器翻譯服務(wù)。

  優(yōu)化功能 提升質(zhì)量

  據(jù)介紹,信息中心在引擎定制化建設(shè)過程中主要從語料建設(shè)與優(yōu)化、模型訓(xùn)練及調(diào)參、引入外部記憶以及工程性打磨四個(gè)方面進(jìn)行。而這四個(gè)方面,各有其必要性:語料資源建設(shè)與優(yōu)化的目的是獲得高質(zhì)量的訓(xùn)練語料,高質(zhì)量的語料是高性能多語種神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯系統(tǒng)的基礎(chǔ);模型訓(xùn)練及調(diào)參主要是通過迭代訓(xùn)練找到最優(yōu)的模型和參數(shù);引入外部記憶,包括引入多語種術(shù)語詞典、記憶庫等,確保專有名詞和專利文獻(xiàn)術(shù)語翻譯準(zhǔn)確;工程性打磨主要是根據(jù)專利文獻(xiàn)數(shù)據(jù)特點(diǎn),制定數(shù)據(jù)前后處理整體解決方案,進(jìn)而提升機(jī)器翻譯性能和質(zhì)量。

  記者在采訪中了解到,作為信息中心依據(jù)專利文獻(xiàn)特點(diǎn)對(duì)通用機(jī)器翻譯引擎的定制化產(chǎn)品,多語種機(jī)器翻譯引擎具有實(shí)時(shí)翻譯、批量翻譯、語種自動(dòng)識(shí)別、翻譯記憶、用戶詞典等功能,支持中、英、德、法、日、韓、俄等多個(gè)語種的翻譯,支持多業(yè)務(wù)場景應(yīng)用,支持本地化部署以及云平臺(tái)部署。

  據(jù)悉,多語種機(jī)器翻譯引擎的專利文獻(xiàn)翻譯質(zhì)量較高,準(zhǔn)確性較通用引擎顯著提高。經(jīng)國家知識(shí)產(chǎn)權(quán)局及多地審查協(xié)作中心審查員廣泛試用,效果良好。

  發(fā)揮優(yōu)勢 持續(xù)探索

  據(jù)信息中心相關(guān)負(fù)責(zé)人介紹,信息中心在深入分析專利領(lǐng)域機(jī)器翻譯應(yīng)用問題的基礎(chǔ)上,采用“技術(shù)+領(lǐng)域化+平臺(tái)+可擴(kuò)展”的設(shè)計(jì)思路,適用于專利領(lǐng)域的多語種神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯系統(tǒng),并進(jìn)行本地化部署及與多應(yīng)用系統(tǒng)的對(duì)接,可在保證數(shù)據(jù)安全的前提下實(shí)現(xiàn)對(duì)多語種專利文獻(xiàn)信息快速、準(zhǔn)確的翻譯,擴(kuò)大文獻(xiàn)檢索范圍和提升瀏覽效率,為專利工作者和社會(huì)公眾進(jìn)行專利文獻(xiàn)檢索提供助力。

  “目前,多語種機(jī)器翻譯引擎已應(yīng)用于國家知識(shí)產(chǎn)權(quán)局新一代智能化專利審查和檢索系統(tǒng),開展多語種、多類型、多格式的海量專利文獻(xiàn)數(shù)據(jù)的翻譯,涉及美、日、韓、德、法、英等十余個(gè)國家、組織和地區(qū)的專利全文及非專利全文數(shù)據(jù),翻譯質(zhì)量得到用戶肯定?!痹撠?fù)責(zé)人說。

  當(dāng)然,從技術(shù)發(fā)展成熟度來看,雖然神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯技術(shù)相較于基于規(guī)則、統(tǒng)計(jì)的機(jī)器翻譯技術(shù)有較大的飛躍,翻譯質(zhì)量大幅提高,但是由于神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯為數(shù)據(jù)驅(qū)動(dòng)方法,目前在資源稀缺語種的翻譯效果以及深層網(wǎng)絡(luò)計(jì)算資源優(yōu)化配置等方面尚存改進(jìn)空間。

  信息中心相關(guān)負(fù)責(zé)人表示,展望未來,如何持續(xù)致力于機(jī)器翻譯技術(shù)的深入研究、提升機(jī)器翻譯質(zhì)量、拓展語言種類及應(yīng)用場景、以系統(tǒng)功能和技術(shù)能力的升級(jí)優(yōu)化助力專利審查和檢索質(zhì)量和效率的提升、為社會(huì)公眾提供高質(zhì)量的專利信息服務(wù)等仍是需要進(jìn)一步研究的問題?!吧衿鳌钡纳衿?,仍將等待開發(fā)設(shè)計(jì)者和用戶一起不斷探索與發(fā)掘。




標(biāo)簽:樂山 甘南 那曲 包頭 唐山 信陽 晉中 龍巖

巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《多語種機(jī)器翻譯引擎 助力專利審查和檢索的“ 神器”》,本文關(guān)鍵詞  ;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題,煩請?zhí)峁┫嚓P(guān)信息告之我們,我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無關(guān)。
  • 相關(guān)文章
  • 下面列出與本文章《多語種機(jī)器翻譯引擎 助力專利審查和檢索的“ 神器”》相關(guān)的同類信息!
  • 收縮
    • 微信客服
    • 微信二維碼
    • 電話咨詢

    • 400-1100-266