主頁(yè) > 知識(shí)庫(kù) > 全面剖析eBay的Hadoop集群應(yīng)用及大數(shù)據(jù)管理

全面剖析eBay的Hadoop集群應(yīng)用及大數(shù)據(jù)管理

熱門(mén)標(biāo)簽:Linux服務(wù)器 服務(wù)外包 呼叫中心市場(chǎng)需求 百度競(jìng)價(jià)排名 網(wǎng)站排名優(yōu)化 AI電銷(xiāo) 地方門(mén)戶網(wǎng)站 鐵路電話系統(tǒng)

eBay, 全球最大的在線交易平臺(tái),由程序員Pierre Omidyar于1995年勞動(dòng)節(jié)周末在美國(guó)創(chuàng)立,起初叫AuctionWeb,于1997年7月正式改名為eBay,今年九月將迎來(lái)其20周年紀(jì)念。

eBay第一筆交易是一只破損的激光筆,成交價(jià)14.83美元,Pierre主動(dòng)聯(lián)系買(mǎi)家以確信其知道這是一只破損的激光筆,而買(mǎi)家則回復(fù)“我是一個(gè)破損激光筆收藏家”。從此,eBay 20年的發(fā)展正式開(kāi)始了,帶領(lǐng)了電子商務(wù)產(chǎn)業(yè)的極速成長(zhǎng),如今,eBay已經(jīng)成為全球最大的在線交易網(wǎng)站,買(mǎi)家分布于全球190多個(gè)國(guó)家,超過(guò)2500萬(wàn)活躍賣(mài)家,1.57億活躍買(mǎi)家,8億活躍商品,通過(guò)Connected Commerce連接著全球各地的買(mǎi)家和買(mǎi)家,2014年產(chǎn)生超過(guò)2550億美元的GMV,其中來(lái)自移動(dòng)端的GMV超過(guò)280億美元。據(jù)統(tǒng)計(jì),在美國(guó)每五秒售出一個(gè)手袋,在澳大利亞每分鐘通過(guò)移動(dòng)端售出一雙鞋,在德國(guó)每10分鐘通過(guò)移動(dòng)端售出一輛汽車(chē)或卡車(chē)。

如此大量的用戶及交易下,數(shù)據(jù)成為eBay的重中之中,從點(diǎn)擊流到搜索,商品查看,交易以及愿望清單等不斷進(jìn)行收集。在eBay數(shù)據(jù)平臺(tái)中存儲(chǔ)著超過(guò)100PB的數(shù)據(jù),其關(guān)鍵是如何獲取、存儲(chǔ)、加工和分析數(shù)據(jù),并釋放數(shù)據(jù)的價(jià)值使之成為行動(dòng)指南,而各個(gè)大數(shù)據(jù)平臺(tái),則在各個(gè)方面為上萬(wàn)名分析師及業(yè)務(wù)用戶提供了堅(jiān)實(shí)的保障和基礎(chǔ),并不斷創(chuàng)新以滿足日新月異的變革和需求。

eBay目前的大數(shù)據(jù)平臺(tái)分為三層,數(shù)據(jù)整合層:負(fù)責(zé)數(shù)據(jù)獲取,處理及清洗等ETL工作,包括批處理及實(shí)時(shí)處理能力,包括相關(guān)的商業(yè)產(chǎn)品和開(kāi)源產(chǎn)品;數(shù)據(jù)平臺(tái)層:主要由傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)(EDW),基于Teradata集群,總?cè)萘砍^(guò)10PB;奇點(diǎn)(Singularity),存放半結(jié)構(gòu)化及深層次結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ),總?cè)萘砍^(guò)36PB;以及Hadoop集群,總?cè)萘砍^(guò)100PB;數(shù)據(jù)訪問(wèn)層:通過(guò)各種工具,平臺(tái)為業(yè)務(wù)用戶和分析師提供訪問(wèn)和分析相關(guān)數(shù)據(jù)的能力,包括各種商業(yè)工具,開(kāi)源產(chǎn)品及自研的各種平臺(tái)等。本文將著重介紹eBay在相關(guān)領(lǐng)域的發(fā)展,平臺(tái)及未來(lái)發(fā)展趨勢(shì)。

Connect with Hadoop

1. Hadoop在eBay的發(fā)展歷史

eBay最早的Hadoop應(yīng)用是在eBay研究實(shí)驗(yàn)室(eBay Research Lab, eRL)構(gòu)建,主要用作日志分析,以期提高每天的日志處理速度。最初的版本是0.18.2,4個(gè)節(jié)點(diǎn),存儲(chǔ)并處理約幾百GB的日志,最大的處理能力為44個(gè)Map。

隨后,eBay搜索團(tuán)隊(duì)構(gòu)建了10個(gè)節(jié)點(diǎn)的集群開(kāi)始了Hadoop在eBay搜索領(lǐng)域的發(fā)展,并在2012年上線了基于HBase的搜索平臺(tái):Cassini。

2010年,eBay 上線了基于CDH2的集群,擁有532個(gè)節(jié)點(diǎn),超過(guò)5PB的存儲(chǔ)容量,并于2012年上線了基于HDP的集群,超過(guò)3000個(gè)節(jié)點(diǎn),容量超過(guò)50PB。2014年,總節(jié)點(diǎn)數(shù)據(jù)超過(guò)10000多個(gè),存儲(chǔ)容量超過(guò)170PB,活躍用戶超過(guò)2000多,現(xiàn)在,相關(guān)規(guī)模還在不斷增長(zhǎng)中。隨之帶來(lái)的管理、監(jiān)控、分析和存儲(chǔ)的挑戰(zhàn)越來(lái)越嚴(yán)峻。

基礎(chǔ)架構(gòu)的創(chuàng)新主導(dǎo)了Hadoop 的進(jìn)化,從最初的基于HDFS和MapReduce的批處理應(yīng)用不斷演變,第一代的Hadoop提供了靈活和可擴(kuò)展的數(shù)據(jù)結(jié)構(gòu)和處理能力,并在大數(shù)據(jù)興起之時(shí)滿足了公司各種大小數(shù)據(jù)處理需求提供了民主化需求。然而畢竟其只是第一步,有著各種限制,如果將其對(duì)比于操作系統(tǒng)的話, 第一代Hadoop就如操作系統(tǒng)和應(yīng)用,例如記事本捆綁在一起,且僅有一個(gè)應(yīng)用,即MapReduce。然而隨之而來(lái)的大量任務(wù)導(dǎo)致了調(diào)度瓶頸,從而促成了YARN(Yet Another Resource Negotiator)項(xiàng)目的成立和發(fā)展,其解決了JobTracker在超大規(guī)模集中成為瓶頸等問(wèn)題,并支持各種應(yīng)用通過(guò)YARN來(lái)進(jìn)行資源調(diào)度和管理從而將Hadoop帶入了下一個(gè)時(shí)代,

下一代的Hadoop取得了巨大的躍進(jìn),從面向批處理到提供交互式的處理能力。并提供了戰(zhàn)略性的決定以支持獨(dú)立的執(zhí)行模式,例如MapReduce可以作為YARN上的一個(gè)應(yīng)用運(yùn)行。從此,通過(guò)YARN,Hadoop變成一個(gè)真正的數(shù)據(jù)操作系統(tǒng)。

現(xiàn)在,從交易型數(shù)據(jù)庫(kù),文檔數(shù)據(jù)庫(kù)及圖數(shù)據(jù)庫(kù)的數(shù)據(jù)都可以存儲(chǔ)在Hadoop之上,通過(guò)基于YARN的應(yīng)用可以訪問(wèn)數(shù)據(jù)而無(wú)需復(fù)制或者在不同的應(yīng)用中移動(dòng)數(shù)據(jù),包括MapReduce、Hive、HBase以及Spark等各種應(yīng)用。從而提供了非常豐富的數(shù)據(jù)處理和創(chuàng)新能力。一個(gè)統(tǒng)一的數(shù)據(jù)存儲(chǔ),利用的平臺(tái)將是確定的趨勢(shì)。

2. 分層存儲(chǔ)

當(dāng)前普遍的認(rèn)知是使用廉價(jià)硬件組建Hadoop集群以存儲(chǔ)超大容量數(shù)據(jù)及提供計(jì)算能力,例如,一個(gè)1000節(jié)點(diǎn)的集群,每個(gè)節(jié)點(diǎn)附帶20TB的存儲(chǔ)能力,則整個(gè)集群可以存儲(chǔ)20PB的數(shù)據(jù)。所有的機(jī)器都有足夠的計(jì)算能力以實(shí)現(xiàn)Hadoop的名言:“Moving Computation is Cheaper than Moving Data”。

不同類(lèi)型的數(shù)據(jù)集通常都存放在同一個(gè)集群中,并被不同的團(tuán)隊(duì)共享以運(yùn)行各種應(yīng)用來(lái)滿足業(yè)務(wù)需求。而數(shù)據(jù)的一個(gè)共同特點(diǎn)是其使用率會(huì)隨著時(shí)間而逐漸降低,越新的數(shù)據(jù)使用率越高,而越舊數(shù)據(jù)的訪問(wèn)次數(shù)逐漸降低。初次生成的數(shù)據(jù)有著最大的使用率,我們將其定義為Hot,基于我們的分析,一周內(nèi)訪問(wèn)量下降的數(shù)據(jù)被稱(chēng)為Warm,而之后三個(gè)月內(nèi)只有少量訪問(wèn)的數(shù)據(jù)被稱(chēng)為Cold。最后,訪問(wèn)率降低到每年僅有幾次甚至為零的數(shù)據(jù)集被稱(chēng)為Frozen,如下表:

由此分析,將不同熱度的數(shù)據(jù)存放在同一個(gè)集群,使用相同的計(jì)算和存儲(chǔ)資源則變得越來(lái)越有問(wèn)題,隨著時(shí)間的增長(zhǎng),冷數(shù)據(jù)越來(lái)越多,將占據(jù)寶貴的存儲(chǔ)和計(jì)算資源,而當(dāng)有更多熱數(shù)據(jù)需要進(jìn)來(lái)或者作大量計(jì)算的時(shí)候,相應(yīng)的存儲(chǔ)變成了瓶頸,很多其他公司甚至提到了刪除低價(jià)值數(shù)據(jù)等做法。在管理和運(yùn)維超大Hadoop集群時(shí)如何處理不同熱度的數(shù)據(jù)成為非常迫切的需求和現(xiàn)實(shí)挑戰(zhàn)。

將低熱度數(shù)據(jù)集與高熱度數(shù)據(jù)集作不同存放的策略已勢(shì)在必行,在Hadoop 2.3中,HDFS支持了分層存儲(chǔ),通過(guò)在集群中添加歸檔存儲(chǔ)能力為冷數(shù)據(jù)提供深層存儲(chǔ)能力,且保持對(duì)于上層應(yīng)用的透明性。由于數(shù)據(jù)依然在同一個(gè)集群中,因此當(dāng)請(qǐng)求需要訪問(wèn)相應(yīng)冷數(shù)據(jù)時(shí)依然可以及時(shí)獲得。例如,我們可以為上面的例子中添加100個(gè)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)附帶200TB存儲(chǔ)但僅使用有限的計(jì)算資源,于是整個(gè)集群的總量將變?yōu)?0PB (20PB 磁盤(pán)+20PB歸檔)。通過(guò)相關(guān)數(shù)據(jù)策略,將不同熱度的數(shù)據(jù)分布到不同存儲(chǔ)上,例如,假設(shè)每份數(shù)據(jù)按Hadoop默認(rèn)設(shè)置復(fù)制三份,對(duì)于Hot型數(shù)據(jù)則將三份數(shù)據(jù)全部存放在快速磁盤(pán)上,對(duì)于Warm類(lèi)型數(shù)據(jù)僅存放一份拷貝在快速磁盤(pán)而其余兩份放到歸檔存儲(chǔ),將Cold和Frozen數(shù)據(jù)全部存放于歸檔中。從而將不同的數(shù)據(jù)進(jìn)行有效分配,示例如下圖:

分層存儲(chǔ)已經(jīng)在eBay最大 Hadoop集群上使用,該集群擁有40PB的存儲(chǔ),我們?yōu)橹砑恿祟~外的10PB存儲(chǔ),每個(gè)節(jié)點(diǎn)附帶220TB容量,由此將Warm、Cold及Frozen數(shù)據(jù)集逐步進(jìn)行遷移。而由于僅需有限的計(jì)算能力,這些節(jié)點(diǎn)的每GB成本比其他節(jié)點(diǎn)便宜4倍左右。后續(xù),eBay將持續(xù)在這方面進(jìn)行研究和投入,例如SSD存儲(chǔ)等。

3. 監(jiān)控、告警及自動(dòng)化運(yùn)維

當(dāng)集群數(shù)量達(dá)到成千上萬(wàn)的規(guī)模時(shí),監(jiān)控、告警及自動(dòng)化運(yùn)維是保障數(shù)據(jù)高可用性及為上層應(yīng)用提供持續(xù)服務(wù)的基礎(chǔ)。在eBay的日常工作中,Hadoop集群的管理和維護(hù)任務(wù)相當(dāng)繁重,而現(xiàn)有的管理和監(jiān)控工具無(wú)法滿足多集群,大規(guī)模及分布式收集日志,監(jiān)控?cái)?shù)據(jù)的需求。因此eBay研發(fā)了名為Eagle的集群監(jiān)控告警平臺(tái)。

Eagle主要由基礎(chǔ)的核心框架以及針對(duì)不同應(yīng)用領(lǐng)域的諸多app組成,專(zhuān)注于解決大數(shù)據(jù)時(shí)代大型分布式系統(tǒng)自身監(jiān)控這個(gè)復(fù)雜的大數(shù)據(jù)問(wèn)題,具有高擴(kuò)展性、高實(shí)時(shí)性,以及高可用性等特點(diǎn),同時(shí)支持使用機(jī)器學(xué)習(xí)為復(fù)雜情況提供預(yù)測(cè)分析。

輕量級(jí)分布式流處理框架:以DAG為基礎(chǔ)模型對(duì)通用流處理范式進(jìn)行抽象,在開(kāi)發(fā)期用戶只需基于DSL API定義監(jiān)控程序的流式處理邏輯,運(yùn)行期再選擇實(shí)際物理執(zhí)行環(huán)境,默認(rèn)支持單進(jìn)程和Storm,同時(shí)也支持對(duì)于其他執(zhí)行環(huán)境的擴(kuò)展,比如Spark Streaming 或者 Flink等。

實(shí)時(shí)流聚合引擎:提供簡(jiǎn)單易用的實(shí)時(shí)流聚合規(guī)則定義語(yǔ)法,元數(shù)據(jù)驅(qū)動(dòng),動(dòng)態(tài)部署,實(shí)現(xiàn)線性擴(kuò)展的實(shí)時(shí)監(jiān)控?cái)?shù)據(jù)流聚合。

分布式Policy引擎:分布式實(shí)時(shí)預(yù)警規(guī)則執(zhí)行引擎,提供類(lèi)SQL的描述性規(guī)則定義語(yǔ)法以及機(jī)器學(xué)習(xí)自動(dòng)等多種擴(kuò)展,支持預(yù)警規(guī)則的動(dòng)態(tài)加載和分區(qū)。

存儲(chǔ)和查詢(xún)框架:通用監(jiān)控?cái)?shù)據(jù)存儲(chǔ)框架,可用于存儲(chǔ)和查詢(xún)?nèi)罩?、指?biāo)、警報(bào)、事件等多種類(lèi)型數(shù)據(jù),默認(rèn)支持HBase,并針對(duì)HBase進(jìn)行多種優(yōu)化和擴(kuò)展,比如coprocesser,二級(jí)索引以及分區(qū)等,也支持其他存儲(chǔ)類(lèi)型的擴(kuò)展比如RDBMS等,并提供通用的ORM, REST API以及易用強(qiáng)大的類(lèi)SQL查詢(xún)語(yǔ)法。

可定制化監(jiān)控報(bào)表:提供類(lèi)Notebook的交互式實(shí)時(shí)可視化分析,也支持進(jìn)一步選取部分圖標(biāo),并定義布局保存為dashboard以供分享或者持續(xù)監(jiān)控。

除了對(duì)日常集群指標(biāo)監(jiān)控外,Eagle集成了Job Performance Analyzer(JPA),通過(guò)實(shí)時(shí)監(jiān)控Hadoop 平臺(tái)上的作業(yè)當(dāng)前和歷史執(zhí)行狀態(tài),提供多維度不同粒度的性能分析,支持多種異常預(yù)警和性能警告,比如作業(yè)運(yùn)行時(shí)間過(guò)長(zhǎng)、讀寫(xiě)過(guò)慢、數(shù)據(jù)傾斜、失敗任務(wù)比率過(guò)多等,可有效在作業(yè)無(wú)法滿足SLA之前提供預(yù)警和性能建議。

同時(shí)結(jié)合機(jī)器學(xué)習(xí)模型,基于任務(wù)分布或指標(biāo)變化等協(xié)同預(yù)測(cè)任務(wù)或者服務(wù)器節(jié)點(diǎn)等可能潛在的異常,并集成Remediation系統(tǒng)對(duì)系統(tǒng)進(jìn)行自動(dòng)修復(fù)。同時(shí),針對(duì)異常用戶行為,危險(xiǎn)操作等,開(kāi)發(fā)了Eagle DAM(Data Activities Monitoring)的安全監(jiān)控應(yīng)用,通過(guò)自定義策略及機(jī)器學(xué)習(xí)模型,對(duì)關(guān)鍵數(shù)據(jù),操作等進(jìn)行監(jiān)控和報(bào)警,防范于未然。

4. 在線交互分析

當(dāng)數(shù)據(jù)規(guī)模隨著用戶群體的多樣化拓展而不斷增長(zhǎng)時(shí),我們的用戶,比如分析師與業(yè)務(wù)部門(mén),希望能在保持最低延遲水平的前提下繼續(xù)使用自己所熟悉的工具和方式來(lái)訪問(wèn)和分析存儲(chǔ)于Hadoop之上的超大規(guī)模數(shù)據(jù)集,并且希望數(shù)據(jù)的獲取、處理、存儲(chǔ)和分析同時(shí)在Hadoop集群上完成,而無(wú)需再將數(shù)據(jù)從一個(gè)數(shù)據(jù)源遷移到另外一個(gè)數(shù)據(jù)源。在研究和評(píng)估了多種開(kāi)源及商業(yè)產(chǎn)品后,eBay中國(guó)研發(fā)中心于2013年中正式立項(xiàng)啟動(dòng)了OLAP on Hadoop項(xiàng)目,并在2014年10月開(kāi)源,之后貢獻(xiàn)給了Apache基金會(huì),現(xiàn)在正在孵化階段。

Apache Kylin通過(guò)映射Hive中星型結(jié)構(gòu)的表,由建模者定義相關(guān)維度和度量及其他設(shè)置而生成元數(shù)據(jù),構(gòu)建引擎基于元數(shù)據(jù)自動(dòng)生成相關(guān)的Hive查詢(xún),一系列的MapReduce 任務(wù)及HBase操作,從而將數(shù)據(jù)從Hive中讀出并進(jìn)行預(yù)先計(jì)算,將結(jié)果存放到HBase。之后,相同數(shù)據(jù)模型的查詢(xún)都將直接讀取已經(jīng)被計(jì)算好的存放于HBase中的數(shù)據(jù),從而實(shí)現(xiàn)秒級(jí)甚至亞秒級(jí)查詢(xún)延遲。

在該項(xiàng)目初始階段調(diào)研和評(píng)估過(guò)包括Impala,Stinger,Phoenix on HBase, Teradata,MicroStrategy等多種開(kāi)源和商業(yè)選項(xiàng),最后發(fā)現(xiàn)沒(méi)有一種可以滿足eBay實(shí)際業(yè)務(wù)需求,為超大規(guī)模數(shù)據(jù)集提供秒級(jí)交互式查詢(xún)能力。開(kāi)發(fā)團(tuán)隊(duì)在研究過(guò)眾多技術(shù)、論文和參考實(shí)現(xiàn)后,最終選擇了MOLAP的方式,即為數(shù)據(jù)模型作預(yù)先計(jì)算,以空間換時(shí)間的方式,為前端業(yè)務(wù)用戶和分析師提供在TB甚至PB級(jí)別數(shù)據(jù)集上交互式的查詢(xún)能力。

在上面的拓?fù)鋱D中,最下面的節(jié)點(diǎn)為實(shí)際數(shù)據(jù),而之上的每一個(gè)節(jié)點(diǎn)則代表了一種維度組合,理論上所有的SQL查詢(xún)都能被該拓?fù)鋱D覆蓋,因此進(jìn)行相關(guān)的預(yù)先計(jì)算后,只要引擎能正確解析查詢(xún)語(yǔ)句并訪問(wèn)正確的數(shù)據(jù)存放地址就可以在極短的時(shí)間內(nèi)獲得結(jié)果。在實(shí)際開(kāi)發(fā)過(guò)程中,Kylin系統(tǒng)有效地降低了維度,減少了非必要組合的計(jì)算,增加了多種壓縮和編碼算法,例如Trie字典編碼技術(shù)、Partial Cube計(jì)算、分組聚合等等。實(shí)際生產(chǎn)環(huán)境中,90%ile的查詢(xún)延遲在1.5秒,95%ile小于5秒(最近30天)。

雖然基于MOLAP的應(yīng)用系統(tǒng)已經(jīng)為相關(guān)的業(yè)務(wù)用戶提供了在大規(guī)模數(shù)據(jù)集上的查詢(xún)應(yīng)用,但由于構(gòu)建Cube需要花費(fèi)大量的系統(tǒng)資源和時(shí)間,一方面對(duì)集群帶來(lái)了較大的壓力,另一方面很難滿足對(duì)實(shí)時(shí)型要求高的需求。因此,Kylin團(tuán)隊(duì)為此研發(fā)了下一代架構(gòu),通過(guò)Micro Batch模式對(duì)流數(shù)據(jù)進(jìn)行支持,如下圖所示,每隔固定的時(shí)間讀取來(lái)自上層數(shù)據(jù)流中的數(shù)據(jù)并促發(fā)聚合,最終導(dǎo)入到目標(biāo)Cub俄中,目前已經(jīng)在eBay內(nèi)部上線相關(guān)案例并取得了良好的反饋。

另外,對(duì)于Cube引擎也引入了新的算法,實(shí)測(cè)結(jié)果表明能夠提供一倍以上的構(gòu)建速度,并大大降低對(duì)系統(tǒng)資源的要求。此外,我們對(duì)Spark也投入了相關(guān)的研究,第一版的Spark Cubing引擎業(yè)以完成并準(zhǔn)備上線實(shí)測(cè)。

5. 數(shù)據(jù)生態(tài)

以上簡(jiǎn)要介紹了eBay最近幾年在大數(shù)據(jù)平臺(tái)方面的發(fā)展和主要實(shí)踐,基礎(chǔ)平臺(tái)的發(fā)展和建設(shè)離不開(kāi)用戶,合作伙伴以及管理層幫助和指導(dǎo),在這個(gè)過(guò)程中,也逐漸構(gòu)建起基于Hadoop及企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)生態(tài),各個(gè)業(yè)務(wù)單位,分析團(tuán)隊(duì)利用相關(guān)平臺(tái)和數(shù)據(jù)為支持極速變化的業(yè)務(wù)和快速增長(zhǎng)的數(shù)據(jù)提供豐富的分析和決策支持,共同構(gòu)建eBay的大數(shù)據(jù)生態(tài)。

連接每個(gè)人

通過(guò)大數(shù)據(jù)平臺(tái)及應(yīng)用,eBay能為買(mǎi)家和賣(mài)家提供更加良好的用戶體驗(yàn)和服務(wù),不斷滿足日益變化的市場(chǎng)和環(huán)境,并通過(guò)創(chuàng)新的技術(shù)來(lái)降低對(duì)環(huán)境的影響和依賴(lài)。今天,eBay知道你,明天,eBay將理解你并連接你與未來(lái)。

eBay的秘密武器:用大數(shù)據(jù)激發(fā)購(gòu)買(mǎi)欲
eBay上活躍著180萬(wàn)買(mǎi)家和賣(mài)家,網(wǎng)站每天要產(chǎn)生大量的數(shù)據(jù)。在任何給定的時(shí)間點(diǎn),會(huì)有大約350萬(wàn)件商品上市銷(xiāo)售,通過(guò)eBay的拍賣(mài)搜索引擎每天有超過(guò)250萬(wàn)次查詢(xún)。eBay搜索平臺(tái)副總裁Hugh Williams說(shuō),eBay的Hadoop集群和Teradata設(shè)備中通常保存有10PB的原始數(shù)據(jù)。在線拍賣(mài)網(wǎng)站eBay使用大數(shù)據(jù)的諸多功能,例如衡量網(wǎng)站性能和檢測(cè)欺詐。但他們收集大量數(shù)據(jù)的更有趣的用途之一,是促使用戶在網(wǎng)站上購(gòu)買(mǎi)更多的商品。

雖然eBay無(wú)法強(qiáng)制用戶購(gòu)買(mǎi)他們遇到的每一款產(chǎn)品,但eBay充分利用大數(shù)據(jù)的優(yōu)勢(shì)進(jìn)行大力促銷(xiāo)。做法之一就是優(yōu)化搜索引擎和搜索結(jié)果,通過(guò)收集到的數(shù)據(jù)分析用戶的行為模式,對(duì)結(jié)果做出調(diào)整。

“如果時(shí)光倒流幾年,在eBay使用搜索引擎,你可能會(huì)發(fā)現(xiàn)它太‘字面’了,”威廉姆斯說(shuō),“有些事情你可以向搜索引擎表達(dá),它會(huì)從字面上找到用戶所需要的信息,但它并沒(méi)有真正理解用戶的意圖。”

“我們一直在努力使我們的搜尋引擎更直觀。”例如,通過(guò)使用大數(shù)據(jù),eBay發(fā)現(xiàn)如果用戶想要購(gòu)買(mǎi)一個(gè)Pilzlampe,這是一種有收藏價(jià)值的德國(guó)蘑菇燈,當(dāng)他們?cè)趀Bay搜索引擎中輸入“pilz lampe”時(shí)更可能進(jìn)行購(gòu)買(mǎi),因?yàn)檫@樣輸入會(huì)有更多的結(jié)果。

在搜索引擎中,簡(jiǎn)單地在一個(gè)詞中間加一個(gè)空格鍵,eBay就可以通過(guò)網(wǎng)站提高銷(xiāo)售的機(jī)會(huì)。有了這樣的信息,eBay通過(guò)其搜索引擎改變和重寫(xiě)了用戶的搜索查詢(xún),添加了同義詞和替代性條款,以便帶來(lái)更多的相關(guān)結(jié)果。

不僅如此,eBay通過(guò)使用大數(shù)據(jù)對(duì)以下問(wèn)題做出預(yù)測(cè):列出的產(chǎn)品是否會(huì)賣(mài)出,會(huì)賣(mài)什么價(jià)錢(qián),這會(huì)對(duì)拍賣(mài)網(wǎng)站的搜索引擎產(chǎn)生多大的影響。

所有這一切都可以增加用戶購(gòu)買(mǎi)的可能性。

Wlilliams認(rèn)為,塑造的搜索查詢(xún)方式的實(shí)施因素是有風(fēng)險(xiǎn)的。“實(shí)現(xiàn)一個(gè)因素需要幾個(gè)月的工程,而且有非常高的風(fēng)險(xiǎn),因?yàn)槲覀儾恢涝趲椭覀兊目蛻魧ふ翼?xiàng)目的時(shí)候,它對(duì)客戶是否真的有用,”他說(shuō)。這就是為什么eBay通常在網(wǎng)站上運(yùn)行一些測(cè)試,得到用戶的樣本組來(lái)衡量響應(yīng)。

另一個(gè)挑戰(zhàn)是將搜索查詢(xún)的環(huán)境考慮在內(nèi)。一個(gè)例子是,如果用戶查找“GeelongCats”,eBay的搜索引擎可能只是將“Cat”作為關(guān)鍵字,并在寵物類(lèi)里搜索 ——當(dāng)用戶是搜索運(yùn)動(dòng)商品時(shí)這沒(méi)有太大用處。

Williams表示:“在我們的掌控范圍內(nèi)有可能出現(xiàn)非常微妙的問(wèn)題,所以我們需要數(shù)據(jù)供科學(xué)家研究這些問(wèn)題。”

標(biāo)簽:湘潭 蘭州 仙桃 湖南 銅川 崇左 衡水 黃山

巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《全面剖析eBay的Hadoop集群應(yīng)用及大數(shù)據(jù)管理》,本文關(guān)鍵詞  ;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問(wèn)題,煩請(qǐng)?zhí)峁┫嚓P(guān)信息告之我們,我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無(wú)關(guān)。
  • 相關(guān)文章
  • 收縮
    • 微信客服
    • 微信二維碼
    • 電話咨詢(xún)

    • 400-1100-266