主頁 > 知識(shí)庫 > 十點(diǎn)防采集黃金建議

十點(diǎn)防采集黃金建議

熱門標(biāo)簽:江門申請(qǐng)400電話 定位地圖標(biāo)注 慶陽電腦外呼系統(tǒng)代理商 地圖標(biāo)注的聊天案例 泉州呼叫中心外呼系統(tǒng)多少錢 生化危機(jī)3原版地圖標(biāo)注 騰訊搜狗地圖標(biāo)注在哪里 電銷客服機(jī)器人價(jià)格 智能外呼系統(tǒng)的劣勢
筆者自己是寫采集器的,所以對(duì)網(wǎng)站防采集有一些心得體會(huì)。因?yàn)槭窃谏习鄷r(shí)間,各種方法只是簡單的提及。 
    很多防采集方法在施行的時(shí)候需要考慮是否影響搜索引擎對(duì)網(wǎng)站的抓取,所以先來分析下一般采集器和搜索引擎爬蟲采集有何不同。

    相同點(diǎn):

    a. 兩者都需要直接抓取到網(wǎng)頁源碼才能有效工作,
    b. 兩者單位時(shí)間內(nèi)會(huì)多次大量抓取被訪問的網(wǎng)站內(nèi)容;

    c. 宏觀上來講兩者IP都會(huì)變動(dòng);

    d. 兩者多沒耐心的去破解你對(duì)網(wǎng)頁的一些加密(驗(yàn)證),比如網(wǎng)頁內(nèi)容通過js文件加密,比如需要輸入驗(yàn)證碼才能瀏覽內(nèi)容,比如需要登錄才能訪問內(nèi)容等。

    不同點(diǎn):

    搜索引擎爬蟲先忽略整個(gè)網(wǎng)頁源碼腳本和樣式以及html標(biāo)簽代碼,然后對(duì)剩下的文字部分進(jìn)行切詞語法句法分析等一系列的復(fù)雜處理。而采集器一般是通過html標(biāo)簽特點(diǎn)來抓取需要的數(shù)據(jù),在制作采集規(guī)則時(shí)需要填寫目標(biāo)內(nèi)容的開始標(biāo)志何結(jié)束標(biāo)志,這樣就定位了所需要的內(nèi)容;或者采用對(duì)特定網(wǎng)頁制作特定的正則表達(dá)式,來篩選出需要的內(nèi)容。無論是利用開始結(jié)束標(biāo)志還是正則表達(dá)式,都會(huì)涉及到html標(biāo)簽(網(wǎng)頁結(jié)構(gòu)分析)。

    然后再來提出一些防采集方法

    1、限制IP地址單位時(shí)間的訪問次數(shù)

    分析:沒有哪個(gè)常人一秒鐘內(nèi)能訪問相同網(wǎng)站5次,除非是程序訪問,而有這種喜好的,就剩下搜索引擎爬蟲和討厭的采集器了。

    弊端:一刀切,這同樣會(huì)阻止搜索引擎對(duì)網(wǎng)站的收錄

    適用網(wǎng)站:不太依靠搜索引擎的網(wǎng)站

    采集器會(huì)怎么做:減少單位時(shí)間的訪問次數(shù),減低采集效率

    2、屏蔽ip

    分析:通過后臺(tái)計(jì)數(shù)器,記錄來訪者ip和訪問頻率,人為分析來訪記錄,屏蔽可疑Ip。

    弊端:似乎沒什么弊端,就是站長忙了點(diǎn)

    適用網(wǎng)站:所有網(wǎng)站,且站長能夠知道哪些是google或者百度的機(jī)器人

    采集器會(huì)怎么做:打游擊戰(zhàn)唄!利用ip代理采集一次換一次,不過會(huì)降低采集器的效率和網(wǎng)速(用代理嘛)。

    3、利用js加密網(wǎng)頁內(nèi)容

    Note:這個(gè)方法我沒接觸過,只是從別處看來

    分析:不用分析了,搜索引擎爬蟲和采集器通殺

    適用網(wǎng)站:極度討厭搜索引擎和采集器的網(wǎng)站

    采集器會(huì)這么做:你那么牛,都豁出去了,他就不來采你了

    4、網(wǎng)頁里隱藏網(wǎng)站版權(quán)或者一些隨機(jī)垃圾文字,這些文字風(fēng)格寫在css文件中

    分析:雖然不能防止采集,但是會(huì)讓采集后的內(nèi)容充滿了你網(wǎng)站的版權(quán)說明或者一些垃圾文字,因?yàn)橐话悴杉鞑粫?huì)同時(shí)采集你的css文件,那些文字沒了風(fēng)格,就顯示出來了。

    適用網(wǎng)站:所有網(wǎng)站

    采集器會(huì)怎么做:對(duì)于版權(quán)文字,好辦,替換掉。對(duì)于隨機(jī)的垃圾文字,沒辦法,勤快點(diǎn)了。

    5、用戶登錄才能訪問網(wǎng)站內(nèi)容

    分析:搜索引擎爬蟲不會(huì)對(duì)每個(gè)這樣類型的網(wǎng)站設(shè)計(jì)登錄程序。聽說采集器可以針對(duì)某個(gè)網(wǎng)站設(shè)計(jì)模擬用戶登錄提交表單行為。

    適用網(wǎng)站:極度討厭搜索引擎,且想阻止大部分采集器的網(wǎng)站

    采集器會(huì)怎么做:制作擬用戶登錄提交表單行為的模塊
6、利用腳本語言做分頁(隱藏分頁)

    分析:還是那句,搜索引擎爬蟲不會(huì)針對(duì)各種網(wǎng)站的隱藏分頁進(jìn)行分析,這影響搜索引擎對(duì)其收錄。但是,采集者在編寫采集規(guī)則時(shí),要分析目標(biāo)網(wǎng)頁代碼,懂點(diǎn)腳本知識(shí)的人,就會(huì)知道分頁的真實(shí)鏈接地址。

    適用網(wǎng)站:對(duì)搜索引擎依賴度不高的網(wǎng)站,還有,采集你的人不懂腳本知識(shí)

    采集器會(huì)怎么做:應(yīng)該說采集者會(huì)怎么做,他反正都要分析你的網(wǎng)頁代碼,順便分析你的分頁腳本,花不了多少額外時(shí)間。

    7、防盜鏈措施(只允許通過本站頁面連接查看,如:Request.ServerVariables(“HTTP_REFERER“) )
    

    分析:asp和php可以通過讀取請(qǐng)求的HTTP_REFERER屬性,來判斷該請(qǐng)求是否來自本網(wǎng)站,從而來限制采集器,同樣也限制了搜索引擎爬蟲,嚴(yán)重影響搜索引擎對(duì)網(wǎng)站部分防盜鏈內(nèi)容的收錄。

    適用網(wǎng)站:不太考慮搜索引擎收錄的網(wǎng)站

    采集器會(huì)怎么做:偽裝HTTP_REFERER嘛,不難。

    8、全flash、圖片或者pdf來呈現(xiàn)網(wǎng)站內(nèi)容
    

    分析:對(duì)搜索引擎爬蟲和采集器支持性不好,這個(gè)很多懂點(diǎn)seo的人都知道

    適用網(wǎng)站:媒體設(shè)計(jì)類并且不在意搜索引擎收錄的網(wǎng)站

    采集器會(huì)怎么做:不采了,走人

    9、網(wǎng)站隨機(jī)采用不同模版
    

    分析:因?yàn)椴杉魇歉鶕?jù)網(wǎng)頁結(jié)構(gòu)來定位所需要的內(nèi)容,一旦先后兩次模版更換,采集規(guī)則就失效,不錯(cuò)。而且這樣對(duì)搜索引擎爬蟲沒影響。

    適用網(wǎng)站:動(dòng)態(tài)網(wǎng)站,并且不考慮用戶體驗(yàn)。

    采集器會(huì)怎么做:一個(gè)網(wǎng)站模版不可能多于10個(gè)吧,每個(gè)模版弄一個(gè)規(guī)則就行了,不同模版采用不同采集規(guī)則。如果多于10個(gè)模版了,既然目標(biāo)網(wǎng)站都那么費(fèi)勁的更換模版,成全他,撤。

    10、采用動(dòng)態(tài)不規(guī)則的html標(biāo)簽

    分析:這個(gè)比較變態(tài)??紤]到html標(biāo)簽內(nèi)含空格和不含空格效果是一樣的,所以<  div >和<   div    >對(duì)于頁面顯示效果一樣,但是作為采集器的標(biāo)記就是兩個(gè)不同標(biāo)記了。如果次頁面的html標(biāo)簽內(nèi)空格數(shù)隨機(jī),那么
    采集規(guī)則就失效了。但是,這對(duì)搜索引擎爬蟲沒多大影響。

    適合網(wǎng)站:所有動(dòng)態(tài)且不想遵守網(wǎng)頁設(shè)計(jì)規(guī)范的網(wǎng)站。

    采集器會(huì)怎么做:還是有對(duì)策的,現(xiàn)在html cleaner還是很多的,先清理了html標(biāo)簽,然后再寫采集規(guī)則;應(yīng)該用采集規(guī)則前先清理html標(biāo)簽,還是能夠拿到所需數(shù)據(jù)。

    

    總結(jié):

    一旦要同時(shí)搜索引擎爬蟲和采集器,這是很讓人無奈的事情,因?yàn)樗阉饕娴谝徊骄褪遣杉繕?biāo)網(wǎng)頁內(nèi)容,這跟采集器原理一樣,所以很多防止采集的方法同時(shí)也阻礙了搜索引擎對(duì)網(wǎng)站的收錄,無奈,是吧?以上10條建議雖然不能百分之百防采集,但是幾種方法一起適用已經(jīng)拒絕了一大部分采集器了。


標(biāo)簽:錫林郭勒盟 辛集 山西 邢臺(tái) 萍鄉(xiāng) 那曲 鷹潭 來賓

巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《十點(diǎn)防采集黃金建議》,本文關(guān)鍵詞  十點(diǎn),防,采集,黃金,建議,;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題,煩請(qǐng)?zhí)峁┫嚓P(guān)信息告之我們,我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無關(guān)。
  • 相關(guān)文章
  • 下面列出與本文章《十點(diǎn)防采集黃金建議》相關(guān)的同類信息!
  • 本頁收集關(guān)于十點(diǎn)防采集黃金建議的相關(guān)信息資訊供網(wǎng)民參考!
  • 企业400电话

    智能AI客服机器人
    15000

    在线订购

    合计11份范本:公司章程+合伙协议+出资协议+合作协议+股权转让协议+增资扩股协议+股权激励+股东会决议+董事会决议

    推薦文章