主頁(yè) > 知識(shí)庫(kù) > 防止網(wǎng)站被采集的理論分析以及十條方法對(duì)策第1/2頁(yè)

防止網(wǎng)站被采集的理論分析以及十條方法對(duì)策第1/2頁(yè)

熱門標(biāo)簽:智能電銷機(jī)器人適用于哪些行業(yè) 騰訊地圖標(biāo)注商戶關(guān)閉 長(zhǎng)沙防封電銷卡品牌 地圖標(biāo)注宅基地 外呼系統(tǒng)還用卡么 武漢營(yíng)銷電話機(jī)器人軟件 地圖標(biāo)注服務(wù)哪家好 西寧公司外呼系統(tǒng)平臺(tái) 徐州人工智能電銷機(jī)器人好用嗎
相同點(diǎn):
a. 兩者都需要直接抓取到網(wǎng)頁(yè)源碼才能有效工作,
b. 兩者單位時(shí)間內(nèi)會(huì)多次大量抓取被訪問(wèn)的網(wǎng)站內(nèi)容;
c. 宏觀上來(lái)講兩者IP都會(huì)變動(dòng);
d. 兩者多沒(méi)耐心的去破解你對(duì)網(wǎng)頁(yè)的一些加密(驗(yàn)證),比如網(wǎng)頁(yè)內(nèi)容通過(guò)js文件加密,比如需要輸入驗(yàn)證碼才能瀏覽內(nèi)容,比如需要登錄才能訪問(wèn)內(nèi)容等。

不同點(diǎn): 
       搜索引擎爬蟲(chóng)先忽略整個(gè)網(wǎng)頁(yè)源碼腳本和樣式以及html標(biāo)簽代碼,然后對(duì)剩下的文字部分進(jìn)行切詞語(yǔ)法句法分析等一系列的復(fù)雜處理。而采集器一般是通過(guò) html標(biāo)簽特點(diǎn)來(lái)抓取需要的數(shù)據(jù),在制作采集規(guī)則時(shí)需要填寫(xiě)目標(biāo)內(nèi)容的開(kāi)始標(biāo)志何結(jié)束標(biāo)志,這樣就定位了所需要的內(nèi)容;或者采用對(duì)特定網(wǎng)頁(yè)制作特定的正則表達(dá)式,來(lái)篩選出需要的內(nèi)容。無(wú)論是利用開(kāi)始結(jié)束標(biāo)志還是正則表達(dá)式,都會(huì)涉及到html標(biāo)簽(網(wǎng)頁(yè)結(jié)構(gòu)分析)。

然后再來(lái)提出一些防采集方法
1、限制IP地址單位時(shí)間的訪問(wèn)次數(shù)
分析:沒(méi)有哪個(gè)常人一秒鐘內(nèi)能訪問(wèn)相同網(wǎng)站5次,除非是程序訪問(wèn),而有這種喜好的,就剩下搜索引擎爬蟲(chóng)和討厭的采集器了。

弊端:一刀切,這同樣會(huì)阻止搜索引擎對(duì)網(wǎng)站的收錄

適用網(wǎng)站:不太依靠搜索引擎的網(wǎng)站

采集器會(huì)怎么做:減少單位時(shí)間的訪問(wèn)次數(shù),減低采集效率

2、屏蔽ip
分析:通過(guò)后臺(tái)計(jì)數(shù)器,記錄來(lái)訪者ip和訪問(wèn)頻率,人為分析來(lái)訪記錄,屏蔽可疑Ip。

弊端:似乎沒(méi)什么弊端,就是站長(zhǎng)忙了點(diǎn)

適用網(wǎng)站:所有網(wǎng)站,且站長(zhǎng)能夠知道哪些是google或者百度的機(jī)器人

采集器會(huì)怎么做:打游擊戰(zhàn)唄!利用ip代理采集一次換一次,不過(guò)會(huì)降低采集器的效率和網(wǎng)速(用代理嘛)。

3、利用js加密網(wǎng)頁(yè)內(nèi)容
Note:這個(gè)方法我沒(méi)接觸過(guò),只是從別處看來(lái)
分析:不用分析了,搜索引擎爬蟲(chóng)和采集器通殺

適用網(wǎng)站:極度討厭搜索引擎和采集器的網(wǎng)站

采集器會(huì)這么做:你那么牛,都豁出去了,他就不來(lái)采你了

4、網(wǎng)頁(yè)里隱藏網(wǎng)站版權(quán)或者一些隨機(jī)垃圾文字,這些文字風(fēng)格寫(xiě)在css文件中
分析:雖然不能防止采集,但是會(huì)讓采集后的內(nèi)容充滿了你網(wǎng)站的版權(quán)說(shuō)明或者一些垃圾文字,因?yàn)橐话悴杉鞑粫?huì)同時(shí)采集你的css文件,那些文字沒(méi)了風(fēng)格,就顯示出來(lái)了。

適用網(wǎng)站:所有網(wǎng)站

采集器會(huì)怎么做:對(duì)于版權(quán)文字,好辦,替換掉。對(duì)于隨機(jī)的垃圾文字,沒(méi)辦法,勤快點(diǎn)了。

5、用戶登錄才能訪問(wèn)網(wǎng)站內(nèi)容
分析:搜索引擎爬蟲(chóng)不會(huì)對(duì)每個(gè)這樣類型的網(wǎng)站設(shè)計(jì)登錄程序。聽(tīng)說(shuō)采集器可以針對(duì)某個(gè)網(wǎng)站設(shè)計(jì)模擬用戶登錄提交表單行為。

適用網(wǎng)站:極度討厭搜索引擎,且想阻止大部分采集器的網(wǎng)站

采集器會(huì)怎么做:制作擬用戶登錄提交表單行為的模塊

6、利用腳本語(yǔ)言做分頁(yè)(隱藏分頁(yè))
分析:還是那句,搜索引擎爬蟲(chóng)不會(huì)針對(duì)各種網(wǎng)站的隱藏分頁(yè)進(jìn)行分析,這影響搜索引擎對(duì)其收錄。但是,采集者在編寫(xiě)采集規(guī)則時(shí),要分析目標(biāo)網(wǎng)頁(yè)代碼,懂點(diǎn)腳本知識(shí)的人,就會(huì)知道分頁(yè)的真實(shí)鏈接地址。

適用網(wǎng)站:對(duì)搜索引擎依賴度不高的網(wǎng)站,還有,采集你的人不懂腳本知識(shí)

采集器會(huì)怎么做:應(yīng)該說(shuō)采集者會(huì)怎么做,他反正都要分析你的網(wǎng)頁(yè)代碼,順便分析你的分頁(yè)腳本,花不了多少額外時(shí)間。
12下一頁(yè)閱讀全文

標(biāo)簽:通化 通遼 普洱 運(yùn)城 雅安 巴彥淖爾 荊門 鷹潭

巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《防止網(wǎng)站被采集的理論分析以及十條方法對(duì)策第1/2頁(yè)》,本文關(guān)鍵詞  防止,網(wǎng)站,被,采集,的,理論,;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問(wèn)題,煩請(qǐng)?zhí)峁┫嚓P(guān)信息告之我們,我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無(wú)關(guān)。
  • 相關(guān)文章
  • 下面列出與本文章《防止網(wǎng)站被采集的理論分析以及十條方法對(duì)策第1/2頁(yè)》相關(guān)的同類信息!
  • 本頁(yè)收集關(guān)于防止網(wǎng)站被采集的理論分析以及十條方法對(duì)策第1/2頁(yè)的相關(guān)信息資訊供網(wǎng)民參考!
  • 推薦文章