主頁(yè) > 知識(shí)庫(kù) > 來(lái)攢臺(tái)能跑深度神經(jīng)網(wǎng)絡(luò)的機(jī)器吧

來(lái)攢臺(tái)能跑深度神經(jīng)網(wǎng)絡(luò)的機(jī)器吧

熱門標(biāo)簽:電子圍欄 萬(wàn)科 蘋果 硅谷的囚徒呼叫中心 Linux服務(wù)器 科大訊飛語(yǔ)音識(shí)別系統(tǒng) 人工智能 呼叫中心
 

2017 年 6 月 24 日,又拍云旗下技術(shù)沙龍 Open Talk 來(lái)到人工智能公司最為集中的城市之一——深圳,探討了“大數(shù)據(jù)和機(jī)器學(xué)習(xí)最佳實(shí)踐”這一熱門話題;阿基米公社的活動(dòng)現(xiàn)場(chǎng)擠滿了被話題吸引來(lái)的不雅觀眾。

大數(shù)據(jù)、機(jī)器學(xué)習(xí)已經(jīng)成為研究人工智能不能或缺的兩大要素,本次Open Talk的講師來(lái)自華為、數(shù)果科技、又拍云等公司在大數(shù)據(jù)、機(jī)器學(xué)習(xí)領(lǐng)域頗有實(shí)戰(zhàn)經(jīng)驗(yàn)的工程師,分享了各自業(yè)務(wù)在大數(shù)據(jù)、機(jī)器學(xué)習(xí)方面的實(shí)踐經(jīng)驗(yàn),深受現(xiàn)場(chǎng)不雅觀眾認(rèn)可。此次Open Talk由IT大咖說(shuō)提供直播支持。

訓(xùn)練人工智能,如何搭配硬件?

“內(nèi)容識(shí)別”是又拍云于 2017 年推出的首個(gè)人工智能產(chǎn)品,可應(yīng)用于圖片、直播、點(diǎn)播等場(chǎng)景,智能識(shí)別色情、廣告、暴恐等不良內(nèi)容,其中鑒黃識(shí)別率已經(jīng)高達(dá)99.7%。

在Open Talk現(xiàn)場(chǎng),負(fù)責(zé)又拍云“內(nèi)容識(shí)別”開發(fā)工作的葉靖,在《又拍云的深度學(xué)習(xí)實(shí)踐》的分享中,介紹了又拍云在開發(fā)“內(nèi)容識(shí)別”項(xiàng)目的過(guò)程中,所用到的各種工具和技術(shù),以及又拍云在人工智能方面的各種嘗試,面臨的挑戰(zhàn)等。

又拍云“內(nèi)容識(shí)別”的開發(fā)基于超千億張的圖片數(shù)據(jù),以及深度神經(jīng)網(wǎng)絡(luò),“最重要的一個(gè)工具就是GPU,GPU性能好,CPU運(yùn)算速度都是 50 幾毫秒,但GPU可以達(dá)到0. 17 毫秒。但GPU還有很多不足的地方,GPU對(duì)硬件依賴性很高又不易擴(kuò)展,不能像內(nèi)存那樣擴(kuò)展到 100 多G;此外還需要針對(duì)GPU重寫算法,CPU的代碼不能直接拿到GPU上跑,并且比較復(fù)雜?!比~靖分享了對(duì)研發(fā)“人工智能”時(shí)候的硬件選擇,也介紹了其中存在的問(wèn)題:“GPU從數(shù)據(jù)、內(nèi)存拷貝數(shù)據(jù)的速度比較慢慢,寫代碼時(shí)要盡量制止內(nèi)存的拷貝。”

“我們選擇了 4 張 1070 顯卡,配置了SSD,因?yàn)楹芏鄶?shù)據(jù)從機(jī)械硬盤讀取的話嚴(yán)重影響訓(xùn)練速度。在CPU上,為了突破CPU的通道限制,我們選擇了 8 核CPU* 2 的配置。在操作系統(tǒng)的選擇上,又拍云采用了Ubuntu 16.04,一開始選擇了14.04,結(jié)果出現(xiàn)了一大堆的問(wèn)題?!比~靖好不藏私的分享內(nèi)容,引起了現(xiàn)場(chǎng)不雅觀眾熱烈的提問(wèn)。

海量用戶數(shù)據(jù)的處理妙招

人工智能的訓(xùn)練需要大數(shù)據(jù),面臨大數(shù)據(jù)的處理也需要人工智能的參與。數(shù)果智能聯(lián)合創(chuàng)始人、首席架構(gòu)師黃強(qiáng)在本次 Open Talk 上分享了《海量用戶行為數(shù)據(jù)的儲(chǔ)存和分析》。

“用一句話來(lái)說(shuō),用戶行為數(shù)據(jù)就是用戶在產(chǎn)品上的操作行為的記錄。”黃強(qiáng)高度概括了用戶行為數(shù)據(jù)的含義,“其中包孕了時(shí)間、地點(diǎn)、頁(yè)面信息等信息。”一般企業(yè)的用戶數(shù)到了幾十萬(wàn),用戶一天下來(lái)做的所有的操作行為,像一個(gè)用戶行為數(shù)據(jù)包羅用戶的IP、sessionID、imei、終端ID,這個(gè)數(shù)據(jù)量是非常龐大的,每一天就是一個(gè)App都是幾百億甚至上千億的數(shù)據(jù)量。

這些數(shù)據(jù)里,高基數(shù)的維度很多?!拔艺J(rèn)為基數(shù)在百萬(wàn)以上就比較高了?!秉S強(qiáng)認(rèn)為。什么是基數(shù)?好比說(shuō)用戶ID有一個(gè)很大的量,一個(gè)維度下有多少個(gè)不重復(fù)的值,這種值就可以叫ID,如果基數(shù)很高,這個(gè)值會(huì)非常多。高基數(shù)產(chǎn)生的數(shù)據(jù)量非常龐大,幾千萬(wàn)到上千億都是有可能,還有用戶行為是持續(xù)的。這些都是用戶行為數(shù)據(jù)的處理難點(diǎn)。

黃強(qiáng)分享了用戶行為數(shù)據(jù)處理環(huán)節(jié)的幾個(gè)步驟:第一步是采集,通過(guò)SDK等方式、工具采集數(shù)據(jù);采集到數(shù)據(jù)之后需要進(jìn)行存儲(chǔ),“數(shù)據(jù)量非常大,需要拆成很多份,采用分布式資源,才能最大化利用一臺(tái)設(shè)備的計(jì)算資源?!币?yàn)閿?shù)據(jù)被拆散了,所以數(shù)據(jù)處理還需要加入“查詢”功能,把查詢結(jié)果做一個(gè)合并,輸出最終結(jié)果。此外就是數(shù)據(jù)的索引,克分為倒排索引和正向索引兩種方式。

數(shù)據(jù)很重要,更重要的是呈現(xiàn)方式和互通

華為消費(fèi)者BG數(shù)據(jù)分析架構(gòu)師王在清作為壓軸嘉賓,帶來(lái)了《數(shù)據(jù)分析與洞察》。王在清 因工作需求,從市場(chǎng)銷售分析投入到數(shù)據(jù)分析領(lǐng)域,后續(xù)進(jìn)入架構(gòu)、數(shù)據(jù)挖掘等領(lǐng)域,曾參與多項(xiàng)跨國(guó)企業(yè)的全球BI/DW 建設(shè)工作,擅長(zhǎng)分析物(產(chǎn)品、事件)與人(客戶、員工)。

在活動(dòng)現(xiàn)場(chǎng),王在清主要介紹了華為消費(fèi)者BG的數(shù)字化建設(shè)與數(shù)據(jù)驅(qū)動(dòng),從建立數(shù)據(jù)體系到分析洞察應(yīng)用。

很多年前,許多公司都在落地信息化,建了一大堆IT系統(tǒng),“但全部都是數(shù)據(jù)孤島,數(shù)據(jù)跟數(shù)據(jù)沒有什么連接。從現(xiàn)在回來(lái)看,這些數(shù)據(jù)開始建設(shè)的時(shí)候,就應(yīng)該有一個(gè)統(tǒng)一的視圖,借助統(tǒng)一的視圖完善數(shù)據(jù)的關(guān)聯(lián)。一開始有一個(gè)整合視圖以后,還可以是數(shù)據(jù)島,但是島與島的交通線是一致的,而不是事后兩邊各建一個(gè)橋,,運(yùn)氣欠好還建兩座橋。”

標(biāo)簽:黃南 齊齊哈爾 固原 阜新 楚雄 貴陽(yáng) 恩施 貴州

巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《來(lái)攢臺(tái)能跑深度神經(jīng)網(wǎng)絡(luò)的機(jī)器吧》,本文關(guān)鍵詞  ;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問(wèn)題,煩請(qǐng)?zhí)峁┫嚓P(guān)信息告之我們,我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無(wú)關(guān)。
  • 相關(guān)文章
  • 收縮
    • 微信客服
    • 微信二維碼
    • 電話咨詢

    • 400-1100-266