什么是自然語(yǔ)言處理?
其應(yīng)用會(huì)如何改變我們的生活?
為什么說(shuō)它是AI中最難的部分?
它的發(fā)展又面臨怎樣的挑戰(zhàn)?
有請(qǐng)華為諾亞方舟實(shí)驗(yàn)室
語(yǔ)音語(yǔ)義首席科學(xué)家劉群
為我們一一解答
自然語(yǔ)言處理:AI皇冠上的明珠
自然語(yǔ)言處理,既是一門(mén)科學(xué),也是一門(mén)應(yīng)用技術(shù),試圖讓機(jī)器去模擬人類的語(yǔ)言能力。
自然語(yǔ)言處理的研究對(duì)象是人類語(yǔ)言,如詞語(yǔ)、短語(yǔ)、句子、篇章等。通過(guò)對(duì)這些語(yǔ)言單位的分析,不僅要理解字面含義,還希望能理解說(shuō)話人所表達(dá)的情感,以及傳達(dá)的意圖。
沒(méi)有成功的自然語(yǔ)言處理,就不會(huì)有真正的認(rèn)知智能。因此,自然語(yǔ)言處理被視為人工智能的核心問(wèn)題之一,也被喻為AI皇冠上的明珠。
兩大挑戰(zhàn),仍待突破
隨著人類進(jìn)入智能時(shí)代,智能設(shè)備和數(shù)據(jù)量都空前增長(zhǎng),自然語(yǔ)言處理領(lǐng)域經(jīng)過(guò)多年發(fā)展,雖然取得了長(zhǎng)足的進(jìn)步,但面臨很多挑戰(zhàn),其中最主要的主要問(wèn)題有兩個(gè):
一是語(yǔ)義理解,即知識(shí)、常識(shí)的學(xué)習(xí)問(wèn)題。
盡管常識(shí)的理解對(duì)人類來(lái)說(shuō)不是問(wèn)題,但是它卻很難被教給機(jī)器。比如我們可以對(duì)手機(jī)助手說(shuō)查找附近的餐館,手機(jī)就會(huì)在地圖上顯示出附近餐館的位置。但你如果說(shuō)我餓了,手機(jī)助手可能就無(wú)動(dòng)于衷,因?yàn)樗狈︷I了需要就餐這樣的常識(shí)。
大量的這種常識(shí)都潛藏在我們意識(shí)的深處,AI系統(tǒng)的設(shè)計(jì)者幾乎不可能把所有這樣的常識(shí)都總結(jié)出來(lái),并灌入到系統(tǒng)中。
二是低資源問(wèn)題。
面對(duì)標(biāo)注數(shù)據(jù)資源貧乏的問(wèn)題,譬如小語(yǔ)種的機(jī)器翻譯、特定領(lǐng)域?qū)υ捪到y(tǒng)、客服系統(tǒng)、多輪問(wèn)答系統(tǒng)等,自然語(yǔ)言處理尚無(wú)通用的高效解決辦法。
在工程實(shí)踐中,我們除了設(shè)法引入領(lǐng)域知識(shí)(詞典、規(guī)則)以增強(qiáng)數(shù)據(jù)能力之外,還可以基于主動(dòng)學(xué)習(xí)的方法來(lái)增加更多的人工標(biāo)注數(shù)據(jù),以及采用無(wú)監(jiān)督和半監(jiān)督的方法來(lái)利用未標(biāo)注數(shù)據(jù),或者采用多任務(wù)學(xué)習(xí)的方法來(lái)使用其他任務(wù),甚至其他語(yǔ)言的信息,還可以使用遷移學(xué)習(xí)的方法來(lái)利用其他的模型。
如何改變我們的生活?
華為諾亞方舟實(shí)驗(yàn)室的自然語(yǔ)言處理研究主要包括三個(gè)大的方向:語(yǔ)音技術(shù)、機(jī)器翻譯和對(duì)話。
華為的手機(jī)語(yǔ)音助手就集成了諾亞方舟的語(yǔ)音識(shí)別和對(duì)話技術(shù)。諾亞方舟的機(jī)器翻譯技術(shù)支持了華為內(nèi)部海量的技術(shù)資料的翻譯。諾亞方舟基于知識(shí)圖譜的問(wèn)答技術(shù)為華為的全球技術(shù)支持系統(tǒng)(GTS),提供了快速準(zhǔn)確地回答復(fù)雜技術(shù)問(wèn)題的能力。
在金融、法律、醫(yī)療健康等領(lǐng)域,自然語(yǔ)言處理技術(shù)也得到了越來(lái)越廣泛的應(yīng)用。
例如,自然語(yǔ)言處理可以為證券投資提供各種分析數(shù)據(jù),進(jìn)行金融風(fēng)險(xiǎn)分析、欺詐識(shí)別等;可以幫助進(jìn)行法律工作者進(jìn)行案例搜索、判決預(yù)測(cè)、法律文書(shū)自動(dòng)生成、法律文本翻譯、智能問(wèn)答等;還可以幫助醫(yī)生進(jìn)行病歷的輔助錄入、醫(yī)學(xué)資料的檢索和分析、輔助診斷等等。