主頁 > 知識(shí)庫 > 樂視視頻借力開源技術(shù)處理大數(shù)據(jù)的經(jīng)驗(yàn)分享

樂視視頻借力開源技術(shù)處理大數(shù)據(jù)的經(jīng)驗(yàn)分享

熱門標(biāo)簽:百度地圖標(biāo)注不能編輯 個(gè)人家庭地圖標(biāo)注教程 威海語音外呼系統(tǒng)廠家 七臺(tái)河商家地圖標(biāo)注注冊(cè) 百度高德騰訊地圖標(biāo)注公司 徐州穩(wěn)定外呼系統(tǒng)代理商 廣安電銷外呼系統(tǒng) 勝威電話外呼系統(tǒng)密碼 搜地圖標(biāo)注怎么找店鋪

從年底破百億的“羋月傳”和有毒的“太子妃”到年初舉報(bào)快播的“背鍋俠”,樂視簡直賺足了國民的關(guān)注?,F(xiàn)在看來,游戲才剛剛開始,最近樂視又在忙活著升級(jí),改Logo改域名,這意味著樂視已經(jīng)準(zhǔn)備火力全開,進(jìn)軍全球市場了。小編覺得,樂視之所以有這么大的野心,是因?yàn)楸澈笥写髷?shù)據(jù)作支撐,而且未來,大數(shù)據(jù)在樂視全球化戰(zhàn)略中也將發(fā)揮舉足輕重的作用。

從內(nèi)容來看,樂視大數(shù)據(jù)打造的超級(jí)IP實(shí)力確實(shí)強(qiáng)大。2013年樂視最早借大數(shù)據(jù)跑贏宣傳檔為即將上映的《小時(shí)代》做了最精準(zhǔn)的預(yù)測和分析,開展了一場漂亮的電影營銷,拉開了大數(shù)據(jù)電影營銷的模式。再后來,國內(nèi)影視開始掀起IP潮,2015年是IP炒的最熱的一年。年底,樂視給用戶呈上滿意的答卷,其自制的“十年劇王”《羋月傳》以全網(wǎng)200多億的播放總量創(chuàng)下紀(jì)錄。網(wǎng)絡(luò)雷劇《太子妃升職記》,目前全網(wǎng)播放量已接近15億。大數(shù)據(jù)+超級(jí)內(nèi)容IP給樂視進(jìn)軍全球市場注入了無限動(dòng)力。

然而,這不是重點(diǎn),“內(nèi)容+”才是樂視生態(tài)的看點(diǎn)?!读d月傳》播出后,樂視同步推出了《羋月傳》定制版超級(jí)電視、智能手機(jī)、羋酒、手機(jī)殼、《羋月傳》經(jīng)典臺(tái)詞版手機(jī)鈴聲等個(gè)性化產(chǎn)品,還與天貓合作,打造《羋月傳》衍生品旗艦店,《羋月傳》手游也已經(jīng)發(fā)布。注意,請(qǐng)注意,這是一個(gè)360°無死角的IP布局,樂視超級(jí)IP已經(jīng)形成一個(gè)完美的閉環(huán)。

如果說IP是軟件的話,那樂視云就是硬件了。大數(shù)據(jù)時(shí)代,最不缺的就是“云”了,樂視云是一個(gè)專注于視頻領(lǐng)域的云計(jì)算平臺(tái),2016年樂視云已經(jīng)與戴爾達(dá)成兩年全球戰(zhàn)略合作、聯(lián)手全球領(lǐng)先大數(shù)據(jù)運(yùn)營商Equinix,法國第一大電信運(yùn)營商Orange、澳大利亞最大電訊公司澳大利亞電信、世界領(lǐng)先綜合性國際電信公司西班牙電信、全球頂級(jí)通信方案運(yùn)營商香港和記環(huán)球電訊有限公司等全球多家頂級(jí)運(yùn)營商,打破數(shù)據(jù)孤島,加速視頻生態(tài)體系建設(shè),未來樂視大數(shù)據(jù)的觸角將會(huì)伸向更多行業(yè)。

再來看市值,樂視網(wǎng)2004年成立,2010年上市,當(dāng)年市值僅為50億。五年下來,樂視依托大數(shù)據(jù)平臺(tái)在互聯(lián)網(wǎng)視頻、影視制作、智能終端、電子商務(wù)等垂直領(lǐng)域深耕,到現(xiàn)在,總市值已接近1100億。但是,看看樂視這次全面升級(jí)沖擊全球的架勢,貌似,樂視的故事才剛剛開始!

白德鑫現(xiàn)在正在從事樂視網(wǎng)超級(jí)電視做數(shù)據(jù)挖掘。他表示,原來初期的業(yè)務(wù)做得適應(yīng)不了當(dāng)前業(yè)務(wù)發(fā)展,所以要進(jìn)化。主要做的事情,構(gòu)建每件事的時(shí)候,分析數(shù)據(jù)的平臺(tái),給樂視網(wǎng)的超級(jí)電視提供數(shù)據(jù)挖掘服務(wù).如何從最初業(yè)務(wù)發(fā)展到現(xiàn)在,包括在超級(jí)電視上做實(shí)時(shí)分析和用戶離線挖掘,通過數(shù)據(jù)挖掘,給很多業(yè)務(wù)部門提供數(shù)據(jù)挖掘的支持。

白德鑫提到自己是谷歌粉絲,目前正在做第一批超級(jí)電視數(shù)據(jù)挖掘。云視頻搞清播放機(jī)的時(shí)候,那時(shí)候比較屌絲,只有幾萬臺(tái)數(shù)據(jù),數(shù)據(jù)當(dāng)時(shí)也比較少,做了一些開機(jī)數(shù)之類的、日常數(shù)據(jù)。在業(yè)務(wù)里做,在數(shù)據(jù)節(jié)點(diǎn)做計(jì)算。

  后來性能越來越低,因?yàn)榱吭絹碓酱?,?dāng)時(shí)每天數(shù)據(jù)量,當(dāng)時(shí)覺得很大,每天只有幾千萬行數(shù)據(jù)。這時(shí)覺得需要嘗試一些新的技術(shù),就用Cassandra為存儲(chǔ),存儲(chǔ)日至,做簡單處理切分以后放進(jìn)里面,使用Hodoop進(jìn)行計(jì)算,把結(jié)果塞到MySQL里。每天計(jì)算數(shù)據(jù)對(duì)自己來說是一個(gè)中間數(shù)據(jù)??梢猿鰜硪恍﹫?bào)表。數(shù)據(jù)組合比較多,剛開始只是盒子、應(yīng)用,后來還有一些視頻播放內(nèi)容,開始嘗試把每天數(shù)據(jù)把MySQL和Kettle進(jìn)行分析。但是做了三四個(gè)月又換了,使用Kafka、Storm、Hodoop、Hpase、Hive、Oozie、Sqoop,唯一修改是有一些大的,跟隨開源社區(qū)來做,進(jìn)行相應(yīng)升級(jí),盡量跟社區(qū)保持一致。

  樂視網(wǎng)大數(shù)據(jù)的起點(diǎn)
  白德鑫表示,剛開始只有一個(gè)數(shù)據(jù)分析員,抓一些數(shù)據(jù),這是做的分析。電視的盒子,包括電視開機(jī),看了什么電視節(jié)目,因?yàn)闃芬暰W(wǎng)是做視頻內(nèi)容的,點(diǎn)開了什么視頻節(jié)目,看了多長視頻節(jié)目是通過心跳來做的,三分鐘一個(gè)心跳,這個(gè)放到終端記錄下來。播放有開始、有心跳,電視好一些,但是盒子有些用戶看著看著直接斷電了,結(jié)束就沒有了,只能從心跳往回挖。
  自從發(fā)布超級(jí)電視以后,剛開始盒子價(jià)格比較貴,沒人買,后來盒子賣299,賣出去很多。數(shù)據(jù)量按照三分鐘心跳,幾十萬用戶看視頻,開機(jī)有心跳、播放視頻有心跳,數(shù)據(jù)量特別大,沒辦法,樂視當(dāng)時(shí)上了四臺(tái)。四臺(tái)數(shù)據(jù),看怎么發(fā)布的。之后輸出,然后進(jìn)行分析??从心男﹩栴}。
  當(dāng)時(shí)做這個(gè)事情的時(shí)候一個(gè)人在做這些事情。然后后來有人離職,后來Cassandra這塊沒人了,交接的時(shí)候?qū)懲?,?duì)系統(tǒng)影響很大。在這個(gè)時(shí)候沒人接手,他走了技術(shù)也走了,一個(gè)蘿卜一個(gè)坑,蘿卜走了坑很不容易填的。后來想找一個(gè)技術(shù)更牛一些的人幫樂視來做,但是到現(xiàn)在一個(gè)多月沒有找到。系統(tǒng)要繼續(xù)做,數(shù)據(jù)也在瘋狂增長,沒辦法就把Cassadnra去掉,往MySQL里放。
  通過另外一種方式,分析人員對(duì)樂視意見很大,他多的時(shí)間有兩個(gè)小時(shí),要看今天開機(jī)量,和昨天的對(duì)比,再分時(shí)段看開機(jī)量,兩個(gè)小時(shí)就過去了。他說系統(tǒng)老死機(jī),我說是查詢太慢了。希望系統(tǒng)可以做大一些。

  現(xiàn)階段數(shù)據(jù)量的變化
  白德鑫自己說,樂視的數(shù)據(jù)量從年初的三個(gè)月翻一番,到現(xiàn)在的我寫得稍微早一些,到每周翻一番,現(xiàn)在每天數(shù)據(jù)量一百G,超級(jí)電視以及盒子賣得非???。從設(shè)備行為快速向用戶行為轉(zhuǎn)變。我的計(jì)劃量是多少,賣得多了老百姓開始考慮業(yè)務(wù)行動(dòng),按照互聯(lián)網(wǎng)方式做,用戶拿著我的盒子看什么使的,是看電影還是看電視劇,所以這個(gè)時(shí)候很多用戶行為來分析。現(xiàn)在電視版本和盒子版本一周一個(gè),這個(gè)版本每周更新一個(gè)系統(tǒng)版本,用戶是不是接受,這些都在樂視這里做分析。
  還有一個(gè)是樂視在這里做了一些測試,因?yàn)樵诤凶永铮瑯芬暯蠻I里做一些測試,今天做一個(gè)海報(bào)推薦,明天加一個(gè)分析,看用戶量高還是低。
  用戶數(shù)據(jù)量增長很快,人也沒有,一邊找土豪開發(fā)者幫樂視解決這個(gè)問題,另外自己要解決這個(gè)問題了??磾?shù)據(jù)分析的人,團(tuán)隊(duì)從內(nèi)部調(diào),數(shù)據(jù)分析招聘了一個(gè)。還有一個(gè)比較牛的是從公司別的部門挖的一個(gè)人。從今年年初開始履行,從原有的來進(jìn)行。最后換成現(xiàn)在的方式。這個(gè)是自己在做,研發(fā)團(tuán)隊(duì)兩個(gè)人,現(xiàn)在也是兩個(gè)人。
  差不多半年搭成新的,新平臺(tái)通過Kafka搭建,通過很多業(yè)務(wù)系統(tǒng),點(diǎn)播、第三方的,包括一些日志,存儲(chǔ)數(shù)據(jù),以及需要對(duì)用戶進(jìn)行分析的數(shù)據(jù)。還有一些元數(shù)據(jù),進(jìn)行一些加工、處理。整合之后,其實(shí)就是前段所有的請(qǐng)求打到這里。Storme是最后的數(shù)據(jù),另外Hodoop寫的已經(jīng)換了,數(shù)據(jù)量大以后,換其他的數(shù)據(jù)庫,剛開始選,公司自己開始做自己的數(shù)據(jù)庫。通過Hodoop以及數(shù)據(jù)服務(wù)wAD-HOC的搭建、處理,實(shí)時(shí)查詢、開放數(shù)據(jù)平臺(tái)也做了查詢、進(jìn)行了報(bào)表,對(duì)一些實(shí)時(shí)數(shù)據(jù)分析系統(tǒng),還有做了門戶,對(duì)各個(gè)業(yè)務(wù)提供數(shù)據(jù)服務(wù),要調(diào)哪些數(shù)據(jù)。運(yùn)營商需要知道在四川電信、某個(gè)電信部門的視頻點(diǎn)播量。這些都是靠內(nèi)部挖掘的。
  樂視的數(shù)據(jù)源通過前端的,從三款到六款,所有數(shù)據(jù)都打到這里,好處是在于跟著開源社區(qū)升級(jí)系統(tǒng),依然可以接收數(shù)據(jù),不影響業(yè)務(wù)。后面再隨便操作。數(shù)據(jù)稍微做一下處理放到STORE,放到數(shù)據(jù)實(shí)時(shí)計(jì)算、然后進(jìn)行拆分?,F(xiàn)在沒有用PEED,用戶交互是OEE,把多個(gè)任務(wù)組合,把它放到,最后是一個(gè)結(jié)果,是一個(gè)業(yè)務(wù)流程的管理工具。
  數(shù)據(jù)輸出之后通過查詢,然后提供給別人,反饋到前端數(shù)據(jù)。這叫矩陣式的業(yè)務(wù)。這是進(jìn)行的測試。服務(wù)器兩臺(tái)4Core cpu、6G,用戶38萬左右,38萬有效數(shù)據(jù)。跟官網(wǎng)50萬對(duì)比稍微差一些。因?yàn)闃芬暤臋C(jī)器性能比他們差很多。
  當(dāng)時(shí)做的時(shí)候兩個(gè)節(jié)點(diǎn)做的,用了一個(gè)發(fā)送,用的是同步發(fā)送,消息格式是兩種,格式是30字節(jié)、50字節(jié)、200字節(jié)。如果30字節(jié)38萬,其他數(shù)據(jù)基本上是在30萬左右。這是單臺(tái)數(shù)據(jù)。單臺(tái)差不多30萬。這是樂視的Spout集群,做一些業(yè)務(wù)拆分,比如有些數(shù)據(jù)需要組織,點(diǎn)播、心跳的,其實(shí)有些消息是隨機(jī)的,雖然連續(xù)發(fā)過來的,但是每臺(tái)機(jī)器都往外發(fā),把數(shù)據(jù)寫到里面,比方說播放時(shí)長,每個(gè)劇播放時(shí)長、按時(shí)段的數(shù)據(jù)計(jì)算。
  這個(gè)借用官網(wǎng)的圖,我用的0.9幾,實(shí)際上標(biāo)準(zhǔn)是一個(gè),但是樂視怕數(shù)據(jù)丟失,所以做了兩個(gè),其實(shí)做得比較簡單,把數(shù)據(jù)復(fù)制。存的一些數(shù)據(jù),這些沒有太多可講的,當(dāng)時(shí)做了一些簡單優(yōu)化,這個(gè)不多說。默認(rèn)垃圾是關(guān)閉的,自動(dòng)回收,不想讓它自動(dòng)回收要手工做一些處理。這是Sqoop,原來的數(shù)據(jù)都在這里存儲(chǔ),樂視導(dǎo)入集群里,樂視用這個(gè)來做。當(dāng)時(shí)做了一些事情,把數(shù)據(jù)抽取整合。
  沒有寫在上面的OLD,包括查詢,有些數(shù)據(jù)處理處理的中間結(jié)果,中間結(jié)果到最后沒有,不可能到使用階段。

  ROI分析
  數(shù)據(jù)量每個(gè)月翻一番,現(xiàn)在不只這個(gè)了,樂視原有架構(gòu)沒辦法滿足新的需求,之前就是日?qǐng)?bào),現(xiàn)在每天實(shí)時(shí)數(shù)據(jù)都很多。Kettle方式數(shù)據(jù)整合時(shí)間越來越長,采用hadoop-Storm方案,不會(huì)對(duì)數(shù)據(jù)挖掘產(chǎn)生太大的影響,資源稍微豐富一點(diǎn),集群不夠使的時(shí)候要添加機(jī)器,數(shù)據(jù)每日跑一次,每天晚上12點(diǎn)跑一次收取數(shù)據(jù)生成報(bào)表,到現(xiàn)在實(shí)時(shí)查詢,時(shí)間還是比較長的,五分鐘左右。因特爾給樂視推薦過一個(gè),但是它那個(gè)對(duì)內(nèi)存要求太高,暫時(shí)做不到?,F(xiàn)在都是6G內(nèi)存服務(wù)器。支持硬件設(shè)備。
  目前還有很多事情要做,其實(shí)對(duì)樂視來說不同階段選擇不同方案,剛開始初期的時(shí)候,一年賣幾萬個(gè)盒子,剛開始三千一臺(tái)盒子,不可能建十幾個(gè)節(jié)點(diǎn)的數(shù)據(jù)。人員流失會(huì)導(dǎo)致技術(shù)流失。技術(shù)儲(chǔ)備和內(nèi)部自薦比招聘牛人更快。現(xiàn)在招聘也很困難,hadoop圈里人比較少。新業(yè)務(wù)平臺(tái)都要小心對(duì)待。否則出問題很難解決。數(shù)據(jù)這塊還好一些,如果前端沒有,對(duì)業(yè)務(wù)影響很大。
  數(shù)據(jù)安全很重要,樂視有40多T數(shù)據(jù),放到兩個(gè)備份存儲(chǔ)上。服務(wù)器多了就是爽,四臺(tái)不夠加八臺(tái),計(jì)算量可以很快。

標(biāo)簽:婁底 滁州 臨沂 昭通 云浮 威海 三明 吳忠

巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《樂視視頻借力開源技術(shù)處理大數(shù)據(jù)的經(jīng)驗(yàn)分享》,本文關(guān)鍵詞  樂視,視頻,借力,開源,技術(shù),;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題,煩請(qǐng)?zhí)峁┫嚓P(guān)信息告之我們,我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無關(guān)。
  • 相關(guān)文章
  • 下面列出與本文章《樂視視頻借力開源技術(shù)處理大數(shù)據(jù)的經(jīng)驗(yàn)分享》相關(guān)的同類信息!
  • 本頁收集關(guān)于樂視視頻借力開源技術(shù)處理大數(shù)據(jù)的經(jīng)驗(yàn)分享的相關(guān)信息資訊供網(wǎng)民參考!
  • 推薦文章