妓女妓女一区二区三区在线观看,亚洲熟女乱色综合亚洲图片

主頁(yè) > 知識(shí)庫(kù) > 驚現(xiàn)索引擎如何索引收錄網(wǎng)頁(yè)的方法

驚現(xiàn)索引擎如何索引收錄網(wǎng)頁(yè)的方法

highdiy 發(fā)表在五月 9, 2007
對(duì)SEO(搜索引擎優(yōu)化)而言，讓網(wǎng)站內(nèi)的頁(yè)面能夠及時(shí)、全面地被搜索引擎索引、收錄應(yīng)該說(shuō)是首要的任務(wù)，這是實(shí)施其他SEO策略的最基本保證。——不過(guò)，這也是往往易被高估的一個(gè)環(huán)節(jié)，比如說(shuō)我們時(shí)?？梢钥吹侥承┤诵Q(chēng)自己的網(wǎng)站被Google收錄了多少頁(yè)面如幾K甚至幾十K等以證明SEO工作的成功。但客觀地說(shuō)，網(wǎng)頁(yè)僅僅被搜索引擎索引、收錄是沒(méi)有太大的實(shí)際意義，往往只能淪為浩如煙海的Internet世界中的殉葬品，更重要的是如何讓網(wǎng)頁(yè)出現(xiàn)在針對(duì)特定搜索項(xiàng)的SERP(搜索結(jié)果頁(yè)面)前幾頁(yè)?！S多人相信，讓網(wǎng)站內(nèi)盡可能多的頁(yè)面被收錄進(jìn)搜索引擎索引數(shù)據(jù)庫(kù)終歸不是一件壞事，網(wǎng)頁(yè)越多，暴光的機(jī)會(huì)也便越大，雖然最終效果如何存在疑問(wèn)。
Anyway，如果在對(duì)網(wǎng)站實(shí)施SEO時(shí)將重點(diǎn)放在網(wǎng)頁(yè)被索引、收錄的速度與效率，當(dāng)然也無(wú)可厚非，而要想實(shí)現(xiàn)這一點(diǎn)，需要我們對(duì)搜索引擎如何收錄、索引網(wǎng)頁(yè)的機(jī)制有所了解。下面我們以Google為例，介紹搜索引擎收錄、索引網(wǎng)頁(yè)的過(guò)程，希望能對(duì)朋友們有后助益?！獙?duì)其他搜索引擎如Yahoo!、Live搜索及百度而言，盡管可能在具體細(xì)節(jié)上存在差別，不過(guò)，基本策略應(yīng)該是類(lèi)似的。
1、收集待索引網(wǎng)頁(yè)的url
Internet上存在的網(wǎng)頁(yè)數(shù)量絕對(duì)是個(gè)天文數(shù)字，每天新增的網(wǎng)頁(yè)也不計(jì)其數(shù)，搜索引擎需要首先找到要索引收錄的對(duì)象。
具體到Google而言，雖然對(duì)GoogleBot是否存在DeepBot與FreshBot的區(qū)別存在爭(zhēng)議——至于是否叫這么兩個(gè)名字更是眾說(shuō)紛耘，當(dāng)然，名字本身并不重要——至少到目前為止，主流的看法是，在Google的robots中，的確存在著相當(dāng)部分專(zhuān)門(mén)為真正的索引收錄頁(yè)頁(yè)準(zhǔn)備“素材”的robots——在這里我們姑且仍稱(chēng)之為FreshBot吧——它們的任務(wù)便是每天不停地掃描Internet，以發(fā)現(xiàn)并維護(hù)一個(gè)龐大的url列表供DeepBot使用，換言之，當(dāng)其訪問(wèn)、讀取其一個(gè)網(wǎng)頁(yè)時(shí)，目的并不在于索引這個(gè)網(wǎng)頁(yè)，而是找出這個(gè)網(wǎng)頁(yè)中的所有鏈接。——當(dāng)然，這樣似乎在效率上存在矛盾，有點(diǎn)不太可信。不過(guò)，我們可以簡(jiǎn)單地通過(guò)以下方式判斷：FreshBot在掃描網(wǎng)頁(yè)時(shí)不具備“排它性”，也即是說(shuō)，位于Google不同的數(shù)據(jù)中心的多個(gè)robots可能在某個(gè)很短的時(shí)間周期，比如說(shuō)一天甚至一小時(shí)，訪問(wèn)同一個(gè)頁(yè)面，而DeepBot在索引、緩存頁(yè)面時(shí)則不會(huì)出現(xiàn)類(lèi)似的情況，即Google會(huì)限制由某個(gè)數(shù)據(jù)中心的robots來(lái)完成這項(xiàng)工作的，而不會(huì)出現(xiàn)兩個(gè)數(shù)據(jù)中心同時(shí)索引網(wǎng)頁(yè)同一個(gè)版本的情況，如果這種說(shuō)法沒(méi)有破綻的話(huà)，則似乎可以從服務(wù)器訪問(wèn)日志中時(shí)?？梢钥吹皆醋圆煌琁P的GoogleBot在很短的時(shí)間內(nèi)多次訪問(wèn)同一個(gè)網(wǎng)頁(yè)證明FreshBot的存在。因此，有時(shí)候發(fā)現(xiàn)GoogleBot頻繁訪問(wèn)網(wǎng)站也不要高興得太早，也許其根本不是在索引網(wǎng)頁(yè)而只是在掃描url。
FreshBot記錄的信息包括網(wǎng)頁(yè)的url、Time Stamp(網(wǎng)頁(yè)創(chuàng)建或更新的時(shí)間戳)，以及網(wǎng)頁(yè)的Head信息(注：這一點(diǎn)存在爭(zhēng)議，也有不少人相信FreshBot不會(huì)去讀取目標(biāo)網(wǎng)頁(yè)信息的，而是將這部分工作交由DeepBot完成。不過(guò)，筆者傾向于前一種說(shuō)法，因?yàn)樵贔reshBot向DeepBot提交的url列表中，會(huì)將網(wǎng)站設(shè)置禁止索引、收錄的頁(yè)面排除在外，以提高效率，而網(wǎng)站進(jìn)行此類(lèi)設(shè)置時(shí)除使用robots.txt外還有相當(dāng)部分是通過(guò)mata標(biāo)簽中的“noindex”實(shí)現(xiàn)的，不讀取目標(biāo)網(wǎng)頁(yè)的head似乎是無(wú)法實(shí)現(xiàn)這一點(diǎn)的)，如果網(wǎng)頁(yè)不可訪問(wèn)，比如說(shuō)網(wǎng)絡(luò)中斷或服務(wù)器故障，F(xiàn)reshBot則會(huì)記下該url并擇機(jī)重試，但在該url可訪問(wèn)之前，不會(huì)將其加入向DeepBot提交的url列表。
總的來(lái)說(shuō)，F(xiàn)reshBot對(duì)服務(wù)器帶寬、資源的占用還是比較小的。最后，F(xiàn)reshBot對(duì)記錄信息按不同的優(yōu)先級(jí)進(jìn)行分類(lèi)，向DeepBot提交，根據(jù)優(yōu)先級(jí)不同，主要有以下幾種：
A：新建網(wǎng)頁(yè)；
B：舊網(wǎng)頁(yè)/新的Time Stamp，即存在更新的網(wǎng)頁(yè)；
C：使用301/302重定向的網(wǎng)頁(yè)；
D：復(fù)雜的動(dòng)態(tài)url，如使用多個(gè)參數(shù)的動(dòng)態(tài)url，Google可能需要附加的工作才能正確分析其內(nèi)容?！S著Google對(duì)動(dòng)態(tài)網(wǎng)頁(yè)支持能力的提高，這一分類(lèi)可能已經(jīng)取消；
E：其他類(lèi)型的文件，如指向PDF、DOC文件的鏈接，對(duì)這些文件的索引，也可能需要附加的工作；
F：舊網(wǎng)頁(yè)/舊的Time Stamp，即未更新的網(wǎng)頁(yè)，注意，這里的時(shí)間戳不是以Google搜索結(jié)果中顯示的日期為準(zhǔn)，而是與Google索引數(shù)據(jù)庫(kù)中的日期比對(duì)；
G：錯(cuò)誤的url，即訪問(wèn)時(shí)返回404回應(yīng)的頁(yè)面；
優(yōu)先級(jí)按由A至G的順序排列，依次降低。需要強(qiáng)調(diào)的是，這里所言之優(yōu)先級(jí)是相對(duì)的，比如說(shuō)同樣是新建網(wǎng)頁(yè)，根據(jù)指向其的鏈接質(zhì)量、數(shù)量的不同，優(yōu)先級(jí)也有著很大的區(qū)別，具有源自相關(guān)的權(quán)威網(wǎng)站鏈接的網(wǎng)頁(yè)具有較高的優(yōu)先級(jí)。此外，這里所指的優(yōu)先級(jí)僅針對(duì)同一網(wǎng)站內(nèi)部的頁(yè)面，事實(shí)上，不同網(wǎng)站也有有著不同的優(yōu)先級(jí)，換言之，對(duì)權(quán)威網(wǎng)站中的網(wǎng)頁(yè)而言，即使其最低優(yōu)先級(jí)的404 url，也可能比許多其他網(wǎng)站優(yōu)先級(jí)最高的新建網(wǎng)頁(yè)更具優(yōu)勢(shì)。
2、網(wǎng)頁(yè)的索引與收錄
接下來(lái)才進(jìn)入真正的索引與收錄網(wǎng)頁(yè)過(guò)程。從上面的介紹可以看出，F(xiàn)reshBot提交的url列表是相當(dāng)龐大的，根據(jù)語(yǔ)言、網(wǎng)站位置等不同，對(duì)特定網(wǎng)站的索引工作將分配至不同的數(shù)據(jù)中心完成。整個(gè)索引過(guò)程，由于龐大的數(shù)據(jù)量，可能需要幾周甚至更長(zhǎng)時(shí)間才能完成。
正如上文所言，DeepBot會(huì)首先索引優(yōu)先級(jí)較高的網(wǎng)站/網(wǎng)頁(yè)，優(yōu)先級(jí)越高，出現(xiàn)在Google索引數(shù)據(jù)庫(kù)及至最終出現(xiàn)在Google搜索結(jié)果頁(yè)面中的速度便越快。對(duì)新建網(wǎng)頁(yè)而言，只要進(jìn)入到這個(gè)階段，即使整個(gè)索引過(guò)程沒(méi)有完成，相應(yīng)的網(wǎng)頁(yè)便已具備出現(xiàn)在Google索引庫(kù)中的可能，相信許多朋友在Google中使用“site:somedomain.com”搜索時(shí)常?？吹綐?biāo)注為補(bǔ)充結(jié)果只顯示網(wǎng)頁(yè)url或只顯示網(wǎng)頁(yè)標(biāo)題與url但沒(méi)有描述的頁(yè)面，此即是處于這一階段網(wǎng)頁(yè)的正常結(jié)果。當(dāng)Google真正讀取、分析、緩存了這個(gè)頁(yè)面后，其便會(huì)從補(bǔ)充結(jié)果中逃出而顯示正常的信息?！?dāng)然，前提是該網(wǎng)頁(yè)具有足夠的鏈接，特別是來(lái)自權(quán)威網(wǎng)站的鏈接，并且，索引庫(kù)中沒(méi)有與該網(wǎng)頁(yè)內(nèi)容相同或近似的記錄(Duplicate Content過(guò)濾)。
對(duì)動(dòng)態(tài)url而言，雖然如今Google宣稱(chēng)在對(duì)其處理方面已不存在障礙，不過(guò)，可以觀察到的事實(shí)仍然顯示動(dòng)態(tài)url出現(xiàn)在補(bǔ)充結(jié)果中的幾率遠(yuǎn)大于使用靜態(tài)url的網(wǎng)頁(yè)，往往需要更多、更有價(jià)值的鏈接才能從補(bǔ)充結(jié)果中逸出。
而對(duì)于上文中之“F”類(lèi)，即未更新的網(wǎng)頁(yè)，DeepBot會(huì)將其時(shí)間戳與Google索引數(shù)據(jù)庫(kù)中的日期比對(duì)，確認(rèn)盡管可能搜索結(jié)果中相應(yīng)頁(yè)面信息未來(lái)得及更新但只要索引了最新版本即可——考慮網(wǎng)頁(yè)多次更新、修改的情況——；至于“G”類(lèi)即404 url，則會(huì)查找索引庫(kù)中是否存在相應(yīng)的記錄，如果有，將其刪除。
3、數(shù)據(jù)中心間的同步
前文我們提到過(guò)，DeepBot索引某個(gè)網(wǎng)頁(yè)時(shí)會(huì)由特定的數(shù)據(jù)中心完成，而不會(huì)出現(xiàn)多個(gè)數(shù)據(jù)中心同時(shí)讀取該網(wǎng)頁(yè)，分別獲得網(wǎng)頁(yè)最近版本的情況，這樣，在索引過(guò)程完成后，便需要一個(gè)數(shù)據(jù)同步過(guò)程，將網(wǎng)頁(yè)的最新版本在多個(gè)數(shù)據(jù)中心得到更新。
這就是之前著名的Google Dance。不過(guò)，在BigDaddy更新后，數(shù)據(jù)中心間的同步不再象那樣集中在特定的時(shí)間段，而是以一種連續(xù)的、時(shí)效性更強(qiáng)的方式進(jìn)行。盡管不同數(shù)據(jù)中心間仍存在一定的差異，但差異已經(jīng)不大，而且，維持的時(shí)間也很短。
提高搜索引擎索引收錄網(wǎng)頁(yè)的效率，根據(jù)上面的介紹，可以看出，要想讓您的網(wǎng)頁(yè)盡可能快、盡可能多地被搜索引擎收錄，至少應(yīng)從如下幾方面進(jìn)行優(yōu)化：
提高網(wǎng)站反相鏈接的數(shù)量與質(zhì)量，源自權(quán)威網(wǎng)站的鏈接可以讓您的網(wǎng)站/網(wǎng)頁(yè)在第一時(shí)間內(nèi)被搜索引擎“看到”。當(dāng)然，這也是老生常談了。從上面的介紹可以看出，要提高網(wǎng)頁(yè)被搜索引擎收錄的效率，首先要讓搜索引擎找到您的網(wǎng)頁(yè)，鏈接是搜索引擎找到網(wǎng)頁(yè)的唯一途徑——“唯一”一詞存在些許爭(zhēng)議，見(jiàn)下面的SiteMaps部分——從這個(gè)角度看，向搜索引擎提交網(wǎng)站之類(lèi)的作法沒(méi)有必要且沒(méi)有意義，相對(duì)而言，要想讓您的網(wǎng)站被收錄，獲得外部網(wǎng)站的鏈接才是根本，同時(shí)，高質(zhì)量的鏈接也是讓網(wǎng)頁(yè)步出補(bǔ)充結(jié)果的關(guān)鍵因素。
網(wǎng)頁(yè)設(shè)計(jì)要秉持“搜索引擎友好”的原則，從搜索引擎spider的視角設(shè)計(jì)與優(yōu)化網(wǎng)頁(yè)，確保網(wǎng)站的內(nèi)部鏈接對(duì)搜索引擎“可見(jiàn)”，相對(duì)于獲得外部網(wǎng)站鏈接的難度，合理規(guī)劃的內(nèi)部鏈接是提高搜索引擎索引與收錄效率更經(jīng)濟(jì)、有效的途徑——除非網(wǎng)站根本未被搜索引擎收錄。
如果您的網(wǎng)站使用動(dòng)態(tài)url，或者導(dǎo)航菜單使用JavaScript，那么，當(dāng)在網(wǎng)頁(yè)收錄方面遇到障礙時(shí)，應(yīng)首先從這里著手。
使用SiteMaps。事實(shí)上，許多人認(rèn)為Google取消了FreshBot的一個(gè)主要原因便是SiteMaps(xml)協(xié)議的廣泛應(yīng)用，認(rèn)為這樣只需讀取網(wǎng)站提供的SiteMaps便可得到網(wǎng)頁(yè)更新信息，而不需FreshBot耗時(shí)費(fèi)力地掃描。這種說(shuō)法還是有一定道理的，雖然目前不能確定Google究竟直接使用SiteMaps作為DeepBot的索引列表還是用做FreshBot的掃描路標(biāo)，但SiteMaps能夠提高網(wǎng)站索引收錄的效率則是不爭(zhēng)的事實(shí)。比如說(shuō)，SEO探索曾做過(guò)如下的測(cè)試：
兩個(gè)網(wǎng)頁(yè)，獲得的鏈接情況相同，一個(gè)加入SiteMaps而另一未加入，出現(xiàn)在SiteMaps中的網(wǎng)頁(yè)很快被收錄，而另一個(gè)頁(yè)面則在過(guò)了很長(zhǎng)時(shí)間后才被收錄；
某個(gè)孤島頁(yè)面，沒(méi)有任何指向其的鏈接，但將其加入SiteMaps一段時(shí)間后，同樣被Google索引，只不過(guò)，出現(xiàn)在補(bǔ)充結(jié)果中。
當(dāng)然，從盡管網(wǎng)頁(yè)未出現(xiàn)在SiteMaps中但仍能被Google索引也可以看出，Google仍然使用FreshBot或類(lèi)似FreshBot的機(jī)制，當(dāng)然這也容易理解，畢竟仍然有那么多未使用SiteMaps的網(wǎng)站，Google不可能將其拒之門(mén)外。
有關(guān)SiteMaps的詳細(xì)介紹，請(qǐng)參考Google SiteMaps:Google的“后門(mén)”。需要指出的是，如今Sitemaps協(xié)議已成為行業(yè)標(biāo)準(zhǔn)，不獨(dú)對(duì)Google有效，其他主流搜索引擎包括Yahoo!、Live搜索及Ask均已提供支持。
聲明：本文中的信息部分來(lái)自公開(kāi)文獻(xiàn)，部分純屬個(gè)人揣測(cè)，可能有謬誤之處，請(qǐng)您姑妄聽(tīng)之。
作者:
highdiy
原載: 點(diǎn)石互動(dòng)
搜索引擎優(yōu)化
博客
版權(quán)聲明：本文已經(jīng)獲得作者授權(quán)發(fā)布，轉(zhuǎn)載請(qǐng)保留本版權(quán)信息，嚴(yán)禁一切非法復(fù)制。

標(biāo)簽：岳陽(yáng) 葫蘆島南陽(yáng) 白城南陽(yáng) 邵陽(yáng) 泉州撫州

巨人網(wǎng)絡(luò)通訊聲明：本文標(biāo)題《驚現(xiàn)索引擎如何索引收錄網(wǎng)頁(yè)的方法》，本文關(guān)鍵詞驚現(xiàn),索,引擎,如何,索引,；如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問(wèn)題，煩請(qǐng)?zhí)峁┫嚓P(guān)信息告之我們，我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò)，涉及言論、版權(quán)與本站無(wú)關(guān)。