10 月12- 15 日,中華醫(yī)學(xué)會(huì)第 24 次全國放射學(xué)學(xué)術(shù)大會(huì)(CCR 2017)在上海世博中心拉開帷幕,聚集了國表里一流的專家學(xué)者及業(yè)內(nèi)人士共 6000 余人,集中展示和交流了中國影像醫(yī)學(xué)的歷史傳承與跨越式發(fā)展。搜狗公司COO茹立云受邀出席此次大會(huì),,以“人工智能在圖像領(lǐng)域的進(jìn)展”為題,分享了人工智能鞭策圖像技術(shù)取得的五項(xiàng)重大突破,并指出人工智能技術(shù)在醫(yī)療領(lǐng)域應(yīng)用前景廣闊,未來將能發(fā)揮更大作用。
(搜狗公司COO茹立云出席CCR2017 并頒發(fā)主題演講)
隨著移動(dòng)互聯(lián)網(wǎng)及社交網(wǎng)絡(luò)的發(fā)展,圖片成為主要的信息載體,在這種情況下,計(jì)算機(jī)的圖像識(shí)別技術(shù)就顯得尤為重要。茹立云介紹, 21 世紀(jì)初,圖像的檢索基本上是由人工去定義特征,在機(jī)器上做簡(jiǎn)單的匹配。人工智能技術(shù)的發(fā)展,讓機(jī)器對(duì)圖像中內(nèi)容的理解能力實(shí)現(xiàn)了全面提升。具體而言,面對(duì)一張圖片時(shí),機(jī)器會(huì)最先判斷“圖像里有什么”,精準(zhǔn)識(shí)別圖像中的內(nèi)容;其次判斷“圖像中物體在哪兒”,以精準(zhǔn)定位物體的位置;最后會(huì)對(duì)“圖像內(nèi)容表達(dá)什么”進(jìn)行智能語義分析。
“機(jī)器對(duì)圖像理解能力的提升,則直接鞭策了OCR文字識(shí)別、識(shí)圖搜索、人臉識(shí)別、圖文翻譯、圖像生成這五大圖像技術(shù)的突破。其中,前三項(xiàng)技術(shù)主要用于解決‘圖像里有什么’和‘圖像中物體在哪兒’的問題,后兩項(xiàng)則對(duì)應(yīng)解決‘圖像內(nèi)容表達(dá)什么’的問題。”茹立云指出,并一一介紹了這五大技術(shù)突破的具體發(fā)展情況。
在文字識(shí)別方面,其目標(biāo)是檢測(cè)并識(shí)別圖像中的文字?!皞鹘y(tǒng)文字檢測(cè)方法步驟繁瑣、人工設(shè)計(jì)流程多,且無法應(yīng)對(duì)復(fù)雜配景和低質(zhì)量文字?,F(xiàn)有技術(shù)表現(xiàn)了深度學(xué)習(xí)模型的端到端的特點(diǎn),減少了中間環(huán)節(jié),從而能降低識(shí)別錯(cuò)誤率。圖片中的文字無論是印刷體、手寫體或者夾雜在復(fù)雜配景中,都能被機(jī)器準(zhǔn)確讀出來。”茹立云還以搜狗翻譯APP最新推出的“菜單翻譯”功能為例,展示了文字識(shí)別技術(shù)的具體應(yīng)用。這項(xiàng)功能基于搜狗領(lǐng)先的圖像識(shí)別技術(shù),對(duì)于用戶從任意角度掃描的中英文菜單,均可準(zhǔn)確識(shí)別,并在原菜單的對(duì)應(yīng)位置標(biāo)識(shí)出相應(yīng)的翻譯結(jié)果。
(圖:“菜單翻譯”功能翻譯前后對(duì)比截圖)
識(shí)圖搜索則旨在解決圖像分類、查找相同圖、相似圖等問題。茹立云體現(xiàn),當(dāng)前的識(shí)圖搜索技術(shù),以深度學(xué)習(xí)算法替代了人工設(shè)計(jì),有效提升了相同圖和相似圖搜索結(jié)果的質(zhì)量?!叭缢压穲D片的拍照購物功能,用戶只需將喜歡的衣服拍照上傳,或者從手機(jī)里上傳相關(guān)照片,系統(tǒng)即可對(duì)上傳照片進(jìn)行快速處理,并與數(shù)據(jù)庫中上億張商品圖片進(jìn)行高速比對(duì),為用戶找到相同和相近的商品。再如搜狗圖片的‘識(shí)狗’、‘識(shí)花’功能,用戶只需上傳相關(guān)照片,即可直接識(shí)別出狗或者花的種類?!比懔⒃婆e例說。
人臉識(shí)別方面,他指出,在深度學(xué)習(xí)以及大數(shù)據(jù)的驅(qū)動(dòng)下,人工智能在人臉識(shí)另外某些方面已遠(yuǎn)超人類的識(shí)別能力。而且,人臉識(shí)另外實(shí)際應(yīng)用場(chǎng)景也已日趨成熟,已經(jīng)越來越多地應(yīng)用到了機(jī)場(chǎng)安檢、人流監(jiān)控、疑犯查找、身份認(rèn)證等場(chǎng)景下。例如商店的監(jiān)控器,就可以利用人臉識(shí)別技術(shù),對(duì)經(jīng)常出入店鋪的熟客進(jìn)行針對(duì)性營銷,將能更好提升銷量。
圖文翻譯技術(shù),其目的是使機(jī)器準(zhǔn)確理解圖像背后的語義?!皞鹘y(tǒng)的圖像識(shí)別技術(shù),只能粗略識(shí)別出圖像中的基本內(nèi)容,如圖像中有一個(gè)人。而人工智能支持下的圖文翻譯技術(shù),不但能告訴你圖片中有一個(gè)人,還能分辨出這個(gè)人的性別、他手上拿的東西、他周圍有什么物體等更細(xì)致的內(nèi)容?!比懔⒃普f,這項(xiàng)技術(shù)的突破,也能給人帶來極大便當(dāng),例如盲人伴侶以前只能通過聲音或者文字轉(zhuǎn)化成的聲音來獲取信息,現(xiàn)在還能把圖片信息轉(zhuǎn)化成的聲音,讓他更好了解視覺化的世界。
而人工智能技術(shù)發(fā)展到更高階段,則是圖像生成技術(shù),目前這一技術(shù)也已被廣泛應(yīng)用到了人臉合成、圖像修復(fù)、風(fēng)格遷移等方面?!袄鐖D像修復(fù)方面,AI能通過深度學(xué)習(xí),將帶馬賽克或者畫面遮擋的圖片修復(fù)成完整圖片,再如黑白照片上色釀成彩色照片,等等?!比懔⒃婆e例說。
回到大會(huì)核心話題——影像醫(yī)學(xué)領(lǐng)域,茹立云指出,未來圖像AI在醫(yī)療領(lǐng)域的應(yīng)用前景將會(huì)非常廣闊,主要包孕三方面:首先是輔助診斷,人工智能可以學(xué)習(xí)更多醫(yī)學(xué)影像方面的數(shù)據(jù),進(jìn)一步輔助醫(yī)生診斷決策;其次是療效評(píng)估,對(duì)于腫瘤等重大疾病,可依據(jù)AI大數(shù)據(jù)分析,在治療前判斷治療方案對(duì)患者的療效;再次是預(yù)后預(yù)測(cè),科學(xué)預(yù)測(cè)患者保留期,提取患者特征,建立模型,定量分析,給出預(yù)后預(yù)測(cè)。