主頁(yè) > 知識(shí)庫(kù) > Google員工揭密防止網(wǎng)站作弊技術(shù)

Google員工揭密防止網(wǎng)站作弊技術(shù)

熱門標(biāo)簽:美圖手機(jī) 百度競(jìng)價(jià)點(diǎn)擊價(jià)格的計(jì)算公式 智能手機(jī) 網(wǎng)站建設(shè) 阿里云 硅谷的囚徒呼叫中心 檢查注冊(cè)表項(xiàng) 使用U盤裝系統(tǒng)
Google 研究員 吳軍
自從有了搜索引擎,就有了針對(duì)搜索引擎網(wǎng)頁(yè)排名的作弊(SPAM)。以至于用戶發(fā)現(xiàn)在搜索引擎中排名靠前的網(wǎng)頁(yè)不一定就是高質(zhì)量的,用句俗話說(shuō),閃光的不一定是金子。
搜索引擎的作弊,雖然方法很多,目的只有一個(gè),就是采用不正當(dāng)手
段提高自己網(wǎng)頁(yè)的排名。早期最常見(jiàn)的作弊方法是重復(fù)關(guān)鍵詞。比如一個(gè)賣數(shù)碼相機(jī)的網(wǎng)站,重復(fù)地羅列各種數(shù)碼相機(jī)的品牌,如尼康、佳能和柯達(dá)等等。為了不讓讀者看到眾多討厭的關(guān)鍵詞,聰明一點(diǎn)的作弊者常用很小的字體和與背景相同的顏色來(lái)掩蓋這些關(guān)鍵詞。其實(shí),這種做法很容易被搜索引擎發(fā)現(xiàn)并糾正。
在有了網(wǎng)頁(yè)排名(page rank)以后,作弊者發(fā)現(xiàn)一個(gè)網(wǎng)頁(yè)被引用的連接越多,排名就可能越靠前,于是就有了專門賣鏈接和買鏈接的生意。比如,有人自己創(chuàng)建成百上千個(gè)網(wǎng)站,這些網(wǎng)站上沒(méi)有實(shí)質(zhì)的內(nèi)容,只有到他們的客戶網(wǎng)站的連接。這種做法比重復(fù)關(guān)鍵詞要高明得多,但是還是不太難被發(fā)現(xiàn)。因?yàn)槟切┧^幫別人提高排名的網(wǎng)站,為了維持生意需要大量地賣鏈接,所以很容易露馬腳。(這就如同造假鈔票,當(dāng)某一種假鈔票的流通量相當(dāng)大以后,就容易找到根源了。)再以后,又有了形形色色的作弊方式,我們就不在這里一一贅述了。
幾年前,我加入Google做的第一件事就是消除網(wǎng)絡(luò)作弊。在Google最早發(fā)現(xiàn)搜索引擎作弊的是Matt Cutts,他在我加入Google前幾個(gè)月開(kāi)始研究這個(gè)問(wèn)題,后來(lái),辛格,馬丁和我先后加入進(jìn)來(lái)。我們經(jīng)過(guò)幾個(gè)月的努力,清除了一半的作弊者。(當(dāng)然,以后抓作弊的效率就不會(huì)有這么高了。)其中一部分網(wǎng)站從此"痛改前非",但是還是有很多網(wǎng)站換一種作弊方法繼續(xù)作弊,因此,抓作弊成了一種長(zhǎng)期的貓捉老鼠的游戲。雖然至今還沒(méi)有一個(gè)一勞永逸地解決作弊問(wèn)題的方法,但是,Google基本做到了對(duì)于任何已知的作弊方法,在一定時(shí)間內(nèi)發(fā)現(xiàn)并清除它,從而總是將作弊的網(wǎng)站的數(shù)量控制在一個(gè)很小的比例范圍。
抓作弊的方法很像信號(hào)處理中的去噪音的辦法。學(xué)過(guò)信息論和有信號(hào)處理經(jīng)驗(yàn)的讀者可能知道這么一個(gè)事實(shí),我們?nèi)绻诎l(fā)動(dòng)機(jī)很吵的汽車?yán)镉檬謾C(jī)打電話,對(duì)方可能聽(tīng)不清;但是如果我們知道了汽車發(fā)動(dòng)機(jī)的頻率,我們可以加上一個(gè)和發(fā)動(dòng)機(jī)噪音相反的信號(hào),很容易地消除發(fā)動(dòng)機(jī)的噪音,這樣,收話人可以完全聽(tīng)不到汽車的噪音。事實(shí)上,現(xiàn)在一些高端的手機(jī)已經(jīng)有了這種檢測(cè)和消除噪音的功能。消除噪音的流程可以概括如下:

在圖中,原始的信號(hào)混入了噪音,在數(shù)學(xué)上相當(dāng)于兩個(gè)信號(hào)做卷積。噪音消除的過(guò)程是一個(gè)解卷積的過(guò)程。這在信號(hào)處理中并不是什么難題。因?yàn)榈谝唬嚢l(fā)動(dòng)機(jī)的頻率是固定的,第二,這個(gè)頻率的噪音重復(fù)出現(xiàn),只要采集幾秒鐘的信號(hào)進(jìn)行處理就能做到。從廣義上講,只要噪音不是完全隨機(jī)的、并且前后有相關(guān)性,就可以檢測(cè)到并且消除。(事實(shí)上,完全隨機(jī)不相關(guān)的高斯白噪音是很難消除的。)
搜索引擎的作弊者所作的事,就如同在手機(jī)信號(hào)中加入了噪音,使得搜索結(jié)果的排名完全亂了。但是,這種人為加入的噪音并不難消除,因?yàn)樽鞅渍叩姆椒ú豢赡苁请S機(jī)的(否則就無(wú)法提高排名了)。而且,作弊者也不可能是一天換一種方法,即作弊方法是時(shí)間相關(guān)的。因此,搞搜索引擎排名算法的人,可以在搜集一段時(shí)間的作弊信息后,將作弊者抓出來(lái),還原原有的排名。當(dāng)然這個(gè)過(guò)程需要時(shí)間,就如同采集汽車發(fā)動(dòng)機(jī)噪音需要時(shí)間一樣,在這段時(shí)間內(nèi),作弊者可能會(huì)嘗到些甜頭。因此,有些人看到自己的網(wǎng)站經(jīng)過(guò)所謂的優(yōu)化(其實(shí)是作弊),排名在短期內(nèi)靠前了,以為這種所謂的優(yōu)化是有效的。但是,不久就會(huì)發(fā)現(xiàn)排名掉下去了很多。這倒不是搜索引擎以前寬容,現(xiàn)在嚴(yán)厲了,而是說(shuō)明抓作弊需要一定的時(shí)間,以前只是還沒(méi)有檢測(cè)到這些作弊的網(wǎng)站而已。
還要強(qiáng)調(diào)一點(diǎn),Google抓作弊和恢復(fù)網(wǎng)站原有排名的過(guò)程完全是自動(dòng)的(并沒(méi)有個(gè)人的好惡),就如同手機(jī)消除噪音是自動(dòng)的一樣。一個(gè)網(wǎng)站要想長(zhǎng)期排名靠前,就需要把內(nèi)容做好,同時(shí)要和那些作弊網(wǎng)站劃清界限。
本文來(lái)自Google黑板報(bào)

標(biāo)簽:賀州 煙臺(tái) 湘潭 通遼 湖北 黃山 山南 懷化

巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《Google員工揭密防止網(wǎng)站作弊技術(shù)》,本文關(guān)鍵詞  ;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問(wèn)題,煩請(qǐng)?zhí)峁┫嚓P(guān)信息告之我們,我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無(wú)關(guān)。
  • 相關(guān)文章
  • 收縮
    • 微信客服
    • 微信二維碼
    • 電話咨詢

    • 400-1100-266