主頁 > 知識庫 > 深入理解robots.txt文件中應(yīng)該屏蔽哪些目錄

深入理解robots.txt文件中應(yīng)該屏蔽哪些目錄

熱門標(biāo)簽:淄博智能外呼系統(tǒng)運營商 昆明永州電話機器人 江陰400電話辦理流程 地圖標(biāo)注多久顯示出來 益智外呼系統(tǒng) 信陽穩(wěn)定外呼系統(tǒng)招商 四川哪里申請400電話 廈門400電話如何辦理 新密電銷卡外呼系統(tǒng)違法嗎
但是,你真的知道網(wǎng)站的robots.txt文件設(shè)置是否合理,哪些文件或者目錄需要屏蔽、哪些設(shè)置方法對網(wǎng)站運營有好處?那下面帶著這些疑問,筆者會進行詳細(xì)的解答,希望對新手站長朋友們有所幫助,老鳥勿噴。

一、什么是robots.txt
筆者引用百度站長工具中后段話來解釋。搜索引擎使用spider程序自動訪問互聯(lián)網(wǎng)上的網(wǎng)頁并獲取網(wǎng)頁信息。spider在訪問一個網(wǎng)站時,會首先會檢查該網(wǎng)站的根域下是否有一個叫做 robots.txt的純文本文件,這個文件用于指定spider在您網(wǎng)站上的抓取范圍。您可以在您的網(wǎng)站中創(chuàng)建一個robots.txt,在文件中聲明 該網(wǎng)站中不想被搜索引擎收錄的部分或者指定搜索引擎只收錄特定的部分。

二、robots.txt文件對網(wǎng)站有什么好處
1、快速增加網(wǎng)站權(quán)重和訪問量;
2、禁止某些文件被搜索引擎索引,可以節(jié)省服務(wù)器帶寬和網(wǎng)站訪問速度;
3、為搜索引擎提供一個簡潔明了的索引環(huán)境

三、哪些網(wǎng)站的目錄需要使用robots.txt文件禁止抓取
1)、圖片目錄
圖片是構(gòu)成網(wǎng)站的主要組成元素。隨著現(xiàn)在建站越來越方便,大量CMS的出現(xiàn),真正做到了會打字就會建網(wǎng)站,而正是因為如此方便,網(wǎng)上出現(xiàn)了大量的同質(zhì)化模板網(wǎng)站,被反復(fù)使用,這樣的網(wǎng)站搜索引擎是肯定不喜歡的,就算是你的網(wǎng)站被收錄了,那你的效果也是很差的。如果你非要用這種網(wǎng)站的話,建議你應(yīng)該在robots.txt文件中進行屏蔽,通常的網(wǎng)站圖片目錄是:imags 或者 img;
2)、網(wǎng)站模板目錄
如上面 圖片目錄 中所說,CMS的強大和靈活,也導(dǎo)致了很多同質(zhì)化的網(wǎng)站模板的出現(xiàn)和濫用,高度的重復(fù)性模板在搜索引擎中形成了一種冗余,且模板文件常常與生成文件高度相似,同樣易造成雷同內(nèi)容的出現(xiàn)。對搜索引擎很不友好,嚴(yán)重的直接被搜索引擎打入冷宮,不得翻身,很多CMS有擁有獨立的模板存放目錄,因此,應(yīng)該進行模板目錄的屏蔽。通常模板目錄的文件目錄是:templets
3)、CSS、JS目錄的屏蔽
CSS目錄文件在搜索引擎的抓取中沒有用處,也無法提供有價值的信息。所以強烈建議站長朋友們在Robots.txt文件中將其進行屏蔽,以提高搜索引擎的索引質(zhì)量。為搜索引擎提供一個簡潔明了的索引環(huán)境更易提升網(wǎng)站友好性。CSS樣式的目錄通常情況下是:CSS 或者 style
JS文件在搜索引擎中無法進行識別,這里只是建議,可以對其進行屏蔽,這樣做也有一個好處:為搜索引擎提供一個簡潔明了的索引環(huán)境;
4)、屏蔽雙頁面的內(nèi)容
這里拿DEDECMS來舉例吧。大家都知道DEDECMS可以使用靜態(tài)和動態(tài)URL進行同一篇內(nèi)容的訪問,如果你生成全站靜態(tài)了,那你必須屏蔽動態(tài)地址的URL鏈接。這里有兩個好處:1、搜索引擎對靜態(tài)的URL比動態(tài)的URL更友好、更容易收錄;2、防止靜態(tài)、動態(tài)URL能訪問同一篇文章而被搜索引擎判為重復(fù)內(nèi)容。這樣做對搜索引擎友好性來說是有益無害的。
5)、模板緩存目錄
很多CMS程序都有緩存目錄,這種緩存目錄的好處我想不用說大家也清楚了吧,可以非常有效的提升網(wǎng)站的訪問速度,減少網(wǎng)站帶寬,對用戶體驗也是很好的。不過,這樣的緩存目錄也有一定的缺點,那就是會讓搜索引擎進行重復(fù)的抓取,一個網(wǎng)站中內(nèi)容重復(fù)也是大祭,對網(wǎng)站百害而無一利。很多使用CMS建站的朋友都沒有注意到,必須要引起重視。
6)被刪除的目錄
死鏈過多,對搜索引擎優(yōu)化來說,是致命的。不能不引起站長的高度重視,。在網(wǎng)站的發(fā)展過程中,目錄的刪除和調(diào)整是不可避免的,如果你的網(wǎng)站當(dāng)前目錄不存在了,那必須對此目錄進行robots屏蔽,并返回正確的404錯誤頁面(注意:在IIS中,有的朋友在設(shè)置404錯誤的時候,設(shè)置存在問題,在自定義錯誤頁面一項中,404錯誤的正確設(shè)置應(yīng)該是選擇:默認(rèn)值 或者 文件,而不應(yīng)該是:URL,以防止搜索引擎返回200的狀態(tài)碼。至于怎么設(shè)置,網(wǎng)上教程很多,大家要吧搜索一下)
這里有一個爭議性的問題,關(guān)于網(wǎng)站后臺管理目錄是否需要進行屏蔽,其實這個可有可無。在能保證網(wǎng)站安全的情況下,如果你的網(wǎng)站運營規(guī)模較小,就算網(wǎng)站管理目錄出現(xiàn)在robots.txt文件中,也沒有多大問題,這個我也見過很多網(wǎng)站這樣設(shè)置的;但如果你的網(wǎng)站運營規(guī)模較大,競爭奪手過多,強烈建議千萬別出現(xiàn)任何你網(wǎng)站后臺管理目錄的信息,以防被別有用心的人利用,損害你的利益;其實搜索引擎越來越智能,對于網(wǎng)站的管理目錄還是能很好的識別,并放棄索引的。另外,大家在做網(wǎng)站后臺的時候,也可以在頁面元標(biāo)簽中添加:進行搜索引擎的屏蔽抓取。

最后,需要說明一點,很多站長朋友喜歡把站點地圖地址放在robots.txt文件中,當(dāng)然這里并不是去屏蔽搜索引擎,而是讓搜索引擎在第一次索引網(wǎng)站的時候便能通過站點地圖快速的抓取網(wǎng)站內(nèi)容。
這里需要注意一下:1、站點地圖的制作一定要規(guī)范;2、網(wǎng)站一定要有高質(zhì)量的內(nèi)容;

標(biāo)簽:河池 果洛 河池 客戶通知 深圳 梅州 赤峰 貴州

巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《深入理解robots.txt文件中應(yīng)該屏蔽哪些目錄》,本文關(guān)鍵詞  深入,理解,robots.txt,文件,;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題,煩請?zhí)峁┫嚓P(guān)信息告之我們,我們將及時溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無關(guān)。
  • 相關(guān)文章
  • 下面列出與本文章《深入理解robots.txt文件中應(yīng)該屏蔽哪些目錄》相關(guān)的同類信息!
  • 本頁收集關(guān)于深入理解robots.txt文件中應(yīng)該屏蔽哪些目錄的相關(guān)信息資訊供網(wǎng)民參考!
  • 推薦文章