2015年12月10-12日電話機器人云端,由中國計算機學會(CCF)主辦電話機器人云端,CCF大數(shù)據(jù)專家委員會承辦,中國科學院計算技術研究所、北京中科天璣科技有限公司與CSDN共同協(xié)辦,以“數(shù)據(jù)安全、深度分析、行業(yè)應用”為主題的 2015中國大數(shù)據(jù)技術大會(Big Data Technology Conference 2015,BDTC 2015)在北京新云南皇冠假日酒店盛大開幕。
11日下午的深度學習分論壇,地平線機器人科技高級工程師余軼南,阿里巴巴iDST語音組高級專家鄢志杰,廈門大學教授紀榮嶸,華中科技大學教授、國家防偽工程中心副主任白翔,以及微軟亞洲研究院研究員洪春濤分享電話機器人云端了深度學習在圖像識別、語音識別、視覺搜索、文字識別等方面的應用,以及開源深度學習框架的演進。
余軼南:基于深度學習的圖像識別進度
地平線機器人科技高級工程師余軼南分享了題為《基于深度學習的圖像識別進度》的演講。
從2012年底開始,深度學習從圖象識別出發(fā),很快席卷了所有圖像里大部分的任務,包括后來的目標檢測、圖像分割,以及各種圖像的應用,以及最近圖像超分辨率和跟蹤,都被深度學習所顛覆。神經(jīng)網(wǎng)絡系統(tǒng)自由度和它的靈活性非常強,可以用這樣一套統(tǒng)一的東西做很多過去需要用不同處理架構做的事情。
算法方面已經(jīng)做了非常多的工作,將來會在以下幾個方面有所突破:第一,理論方面Deep Learning的分析是現(xiàn)在所獲取的,需要進行Network的理論分析。第二,無論是谷歌,還是微軟今天公布的150多層的網(wǎng)絡,都是人工精心做的,這對design非常重要。第三,遇到的真實問題遠是很困難的任務,所以很多時候是Structured Data Processing。第四,Logistic、Counting、Reasonino。第五,over-Reliance ON HP-Data And HP-Communication Faster。
很多數(shù)據(jù)的獲得都是非常容易的,但是有一些數(shù)據(jù)不是這樣,有一些數(shù)據(jù)獲得成本非常高昂,而且出現(xiàn)頻率非常低。需要把原來云端計算模型搬到前端,之所以能搬到前端,就要在價格、功耗、成本各方面進行考量。其實相當于云端來說,前端這樣的使用場景,身邊的每一樣設備都需要智能東西對它進行全新的革命。就要有所選擇,用一款通用芯片計算單元,還是專門構建這樣一款針對DATA Network或者是不同硬件做計算。把計算適用性和指標放在這里。核數(shù)比較少的情況下,但是精度運算能力非常強,非常適合邏輯計算,現(xiàn)在大多數(shù)電腦和手機都在這個領域做工作。第二個方面是DSP,最大的好處是低功耗和低成本,在身邊用得最多的是這個。隨著核數(shù)越來越多,能耗比是越來越好。
無論是谷歌網(wǎng)絡,還是MSR ImageNet網(wǎng)絡,都離不開三件事情:第一,迭代。第二是轉機。最后是Multiplication。如果你把計算機迭代再加上門,你就可以做Recurrence,這三個基礎上非常繁雜,各種各樣的Network,使Network服務于不同的奇奇怪怪的需求??梢园l(fā)現(xiàn),人腦其實也是這樣的架構。人腦要回答幾千乘幾千問題很困難,但是可以對面前的情況做出反應。電腦可以非??焖愠鰩资畠|乘幾十億的數(shù)據(jù),但是要處理以上的問題非常難。所以需要深度學習來進行綜合。
阿里iDST鄢志杰:Deep Learning在客服中心的應用
阿里巴巴iDST語音組高級專家鄢志杰分享了題為《Deep Learning助力客服小二:數(shù)據(jù)技術及機器學習在客服中心的應用》的演講。他主要從傳統(tǒng)客服中心的現(xiàn)狀與挑戰(zhàn)、沉淀客服數(shù)據(jù)、全量客服質檢、自助客服四個方面進行了分享。
傳統(tǒng)客服中心面臨的挑戰(zhàn)包括:效率不高,用戶體驗欠佳;缺乏有效反饋,難以保證服務質量;隨業(yè)務發(fā)展可擴展性差。以阿里巴巴和螞蟻金融為例,傳統(tǒng)客服具有話務量大和用工量大的特點。這種規(guī)模膨脹帶來了三個問題:面對客戶,如何提升服務體驗電話機器人云端?針對小二,如何提升服務質量電話機器人云端?放眼未來,如何通過數(shù)據(jù)技術及機器學習升級傳統(tǒng)客服?
面對以上問題,iDST進行了以下嘗試:
語音識別沉淀客服數(shù)據(jù),自動語音識別,將對話轉寫為文本,為后續(xù)應用提供前提。
全量自動質量控制,掃描每通電話,監(jiān)測基本服務質量,并且進行問題定位質檢,提升問題解答一致性。
自動識別問題,提高自助渠道解決率。存儲語音數(shù)據(jù)不等于沉淀,高準確率的自動語音識別是后續(xù)諸多應用的前提。
客服電話語音識別的難點在于電話對話語音識別是語音識別領域最困難的任務之一,所以需要訓練聲學模型來識別語音。聲學模型是決定語音識別準確率的核心模型之一??焖僦苻D訓練聲學模型是第一要素,第二是Deep Learning??梢岳酶鄶?shù)據(jù)、覆蓋更多實際使用場景來提升識別準確率,但更多數(shù)據(jù)意味著更長的訓練周期,所以縮短訓練周期是工業(yè)界聲學模型訓練的核心問題之一。
他通過分析GPU多機多卡Machine Learning Middleware、基于DBLSTM的語音識別聲學模型、基于DLSTM的問題定位質檢、我的客服“因子+行為”自動問題識別對機器學習在語音方面的應用做了進一步分享。其中,問題定位模型需要確定問題類目、收集訓練數(shù)據(jù)。問題類目是定位和質檢的目標。
關于未來總結云展望,他提到未來是否有自動問題生成模型,用戶說完一句話,或者是說完幾句話你還向訪問一些東西,澄清一些問題,這時候需要自動問題生成模塊回到IVR系統(tǒng),問出這句話,使得幫助你做判斷。于此之外要配響應語音合成技術,還有說話人識別、驗證、情緒檢測等等,這些合在一起就是智能機器人。
廈門大學紀榮嶸:大規(guī)模特征哈希與深度網(wǎng)絡壓縮
廈門大學教授紀榮嶸分享了題為《視覺大數(shù)據(jù)系統(tǒng)緊湊性初探——大規(guī)模特征哈希與深度網(wǎng)絡壓縮》的演講。他主要從面向大規(guī)模視覺搜索的特征哈希和深度神經(jīng)網(wǎng)絡壓縮這兩個切入點介紹了視覺大數(shù)據(jù)搜索與識別系統(tǒng)。
視覺數(shù)據(jù)近年來呈爆炸性增長,大規(guī)模視覺搜索技術具有緊迫需求。實際應用問題經(jīng)常面臨百千萬/億級視覺(圖片、視頻)數(shù)據(jù)庫;計算資源受到限制,具有有限的內存容量與時間效率容忍性;傳統(tǒng)的視覺特征表示維度過高;倒排索引表內容開銷過大;移動與嵌入式系統(tǒng)的場景限制,無法容忍高維實值特征的時空開銷,最小化數(shù)據(jù)通信量的需求。面向大規(guī)模視覺搜索的特征哈希具有一定的優(yōu)勢:哈希函數(shù)為特征投影快,搜索時間為漢明查表,復雜度低,百萬量級圖像搜索系統(tǒng)可以存儲在內存中。代表性的特征哈希技術包括數(shù)據(jù)獨立哈希和數(shù)據(jù)非獨立哈希。
最早的想法跟數(shù)據(jù)庫里做哈希不一樣,數(shù)據(jù)庫生成哈希碼,哈希碼本身是唯一,如果兩個有差別生成哈希碼差別很大,漢明距離不能區(qū)別你的相似性。通過隨機切分平面可以一定保障原始特征空間里兩個點足夠近,有一定的概率落在同一個哈希碼里,所以有一套嚴格的數(shù)據(jù)證明。這個性能并沒有大家想象的強,所以這個性能并不是非常滿意。如果原始特征空間并不完美,一個想法是在原始空間里構造Graph,用Graph Hashing表示兩個點的相似性,把Graph Hashing引到一起。計算哈希碼優(yōu)化過程中,只需要對兩個小矩陣做低級矩陣分解,通過這種方式大大節(jié)約矩陣分解時帶來的時間消耗。
對于深度神經(jīng)網(wǎng)絡壓縮,主要做CNN壓縮,也可以做乘法量化壓縮,還可以做參差編碼壓縮等。之前大家做的工作大多是網(wǎng)絡減枝、權值的共享、矩陣壓縮、哈希、組合式。他提出應該直接優(yōu)化模型和判決力,重構線購線性分類誤差,中小化線性分類的誤差。他介紹了深度神經(jīng)網(wǎng)絡壓縮的常用模型AlexNet、SPPNet、VGGNet、GoogleNet。他主要介紹了全局誤差最小化壓縮,即跨全連接層間,聯(lián)合最小化非基于線性響應的分類(或特征表示)判決面距離重構誤差。
華中科技大學白翔:場景文字識別的深度表示方法
華中科技大學教授、國家防偽工程中心副主任白翔分享了題為《場景文字識別的深度表示方法》的演講。他主要從問題定義、意義和挑戰(zhàn)、算法等方面進行了分享。
場景文字識別是指將場景文字轉換為計算機可讀可編程的過程。場景文字識別對圖像理解會有很大的幫助,可以應用于產品搜索、人機交互等方面,其面臨的挑戰(zhàn)有顏色、尺度、方向、字體、語種、背景等。這些問題在實際情況里都要考慮進去。正是因為要考慮的因素太多了,所以導致這個問題相當?shù)睦щy。
文字識別過程分成三個部分:第一,文字進行檢測。給你一張照片,你將照片里或者是視頻里屬于文字的區(qū)域找到,以單詞的形式,或者是以句子形式抓舉出來;第二,識別過程,這些區(qū)域依然是圖片的格式,需要轉換成計算機可以理解的符號;第三,將前面兩個步驟統(tǒng)一到同一個框架之下,從檢測到識別,都是用一個系統(tǒng)完成,如果是深度學習可以用深度網(wǎng)絡全部完成這件事情。他介紹了文字識別的方法。首先是基于MSER,把來自同一個象素的進行分類,文字的筆劃往往具有相同的特性,所以進行多尺度的積累,提供的結果是多尺度。同一個文字,文字間的間距有規(guī)律,或者是具有相同的顏色。結合規(guī)則對非區(qū)域進行規(guī)律或者刪除,剩余就是干凈的文字,這是檢測最基本的描述值。
文字識別的傳統(tǒng)方法是基于連通區(qū)域的,存在一定問題。他提出了三層結構來進行場景文字處理:底層卷積層計算文字特征,中層利用回歸神經(jīng)網(wǎng)絡來對特征序列進行處理,上層把置信度轉換為文字。對于扭曲的文字,他提出了一種處理思想:在卷基層之前加一個變換層進行處理。
基于文字檢測的方法,比較直接的方法,對于每一個字符,做兩個分類器,可以在兩個分類器在圖像里進行全局掃描,把響應比較高的地方反饋出來。
場景文字的核心問題還是表述,如何場景里表述文字,表述不是如何進行檢測,包括識別都是要進行表述。一個核心的想法是在檢測的過程中能不能提高識別,同時識別模型能不能幫你提升檢測精度,需要列在一個框架下。并且如果你把這個特征共享,檢測時你也用,識別時你也用,能統(tǒng)一起來的話,你會有意想不到的效果。
微軟亞洲研究院洪春濤:開源深度學習框架MXNET解析
微軟亞洲研究院研究員洪春濤分享了題為《MXNET: An Efficient and Flexible Programming Framework for Deep Learning》的演講。他主要介紹了MXNet深度學習的工具,可以讓大家比較快的寫出Deep Learning的程序來。他從程序接口、系統(tǒng)架構、設計細節(jié)等方面進行了介紹。
主要的語言是C++,用C++保證了系統(tǒng)的效率。Python、R、Julia、Go這些語言可以直接拿來寫程序調MXNet,這樣保證非常好的編程接口,同時又有非常好的執(zhí)行。既支持CPU也支持GPU,因為系統(tǒng)整個做的非常小巧,所以在手機上也可以跑。支持分布式,也支持命令式和聲明式的接口。MXNet的特征包括:自動求導,這對寫程序非常有用;占用內存少,可以用更大的model;靈活接口,一種是符號式編程,一種是命令式編程,兩個各有優(yōu)缺點,命令式的語言顯然更容易懂一些,更直觀一些,但是符號式的更利于做優(yōu)化,以及更利于做自動求導,所以都保留;支持分布式、單機多CPU。命令式編程提供的接口類似Numpy,不同之處是多CPU支持和并行執(zhí)行。符號借口類似于函數(shù)。MXNet將這兩種接口結合了起來,這兩種接口都可以使用。
MXNet的設計細節(jié)包括:符號執(zhí)行和自動求導;運行依賴引擎;內存節(jié)省。Symbolic好處不是很直觀,和一般的編成確實不一樣。很難表達動態(tài)的東西,比如說SMT里面你要做,你事先不知道多少詞,就很難寫。第二個重點,是系統(tǒng)里所謂的運行時的依賴引擎,運行式依賴是什么,這是編輯里的概念。比如你要算B=A+1,C=A×2,這里有一個依賴,你必須等到A有值,B、C才能執(zhí)行。或者是你要算C=A×B,或者是D=C+1,C=A×B算完,D=C+1才可以。同時用這樣的依賴引擎多GPU都可以很好的實現(xiàn)。運行依賴引擎包括讀依賴、刪除依賴、寫依賴和共享資源。
這是兩層的最終依賴圖,可以看到總共創(chuàng)建了八個矩陣,不同顏色三角形標的是他們用的內存,比如說粉色三角形表示三個矩陣可以供用同樣的內存。最終,生成八個矩陣,計算當中用了八個矩陣,但是事實上只生成了三塊內存。
本文為CSDN原創(chuàng)文章,未經(jīng)允許不得轉載。
長按指紋即可關注哦!每天都會為你推薦有趣有用的資料!喜歡就分享給更多人吧!