主頁 > 知識庫 > 百度是怎么抓取頁面的?網站SEO的幾個問題解惑

百度是怎么抓取頁面的?網站SEO的幾個問題解惑

熱門標簽:Win7旗艦版 Linux服務器 蘋果 阿里云 科大訊飛語音識別系統(tǒng) 電銷機器人 鐵路電話系統(tǒng) 解決方案

上個月,百度站長平臺于百度科技園舉行了蝶變行動 度基因沙龍,會上針對網站SEO、網站域名、百度抓取頁面、APPLink等方面進行了交流探討。以下為來自活動上的問題解答:包括JS代碼收錄、URL鏈接長短、境外域名對排名的影響等。問答詳情如下:

一、SEO問題解答

Q:在使用百度統(tǒng)計進行廣告追蹤的時候,配置的URL鏈接會很長。這個追蹤會不會影響SEO?

A:這種存在多個URL版本的統(tǒng)計代碼,SEO肯定有影響。針對這種情況有兩個建議,一個是真正Spider爬行和用戶顯示使用兩套url。還有一種是不使用百度統(tǒng)計了,可以改使用谷歌里面的追蹤,他可以使用#號鏈接,事件追蹤,參考美團網。所有鏈接加上事件追蹤。如果產生的話,也是通過#號產生,不增加額外參數。

Q:假如一個頁面開始是不符合百度的SEO標準,后來將它改成符合標準,百度多久可以反饋很好的結果?

A:不同的站,貢獻流量可能不一樣。所以Spider爬行的重點不一樣,有的站可能更多去發(fā)現新鏈接,有的站可能去看舊鏈接。建議推送給百度,像首頁這種抓取的話一般沒有問題。

Q:推送多久會有審核,一個星期或者半個月?

A:推送如果說是能夠達到抓取標準,立即能抓。

Q:網站有新老兩種URL,交替大概有兩年時間,現在舊的URL,跳轉到新的URL。因服務器問題,出現半小時斷網,之后搜索關鍵詞出現老的url,現在基本用所有的手法恢復不過來,這種情況我們怎么做?

A:用改版工具重新提交一下,確保是改版成功就不會有問題。再發(fā)現有問題截屏然后反饋給工程師這邊追查,。

Q:因為網站使用境外域名(暫時變換不了),不知道有沒有什么辦法可以更好的提高搜索量或者抓取量?

A:百度搜索引擎?zhèn)浒付荚趪鴥?,最好用國內備案的服務器和域名?/p>

Q:有的網站注冊使用了很多域名,很多域名是并不想用戶搜索出來的?,F在取消了這些域名,但是還能搜出來,關掉過一次,后來沒有效果,不知道這個怎么處理?

A:如果不需要那些站嗎?可以把那些關掉就可以了。新域名在短暫時間的關閉,可能給用戶調起一個老域名,當這一個域名關閉的情況下,我們不會給用戶做長線。也不會找到這些東西。

Q:網站是母嬰類網站,在PC端上搜索流量很差。想問有沒有方法?

A:類似像醫(yī)療、養(yǎng)生、保健、母嬰這樣的問題,百度對搜索結果的展現是非常謹慎。百度只給優(yōu)質網站開放他們的展現可能性,網站在很長時間內拿不到流量都非常有可能。如果網站在SEO上沒有出現很大問題,可以審視內容方面是否都在競爭一些熱門詞。建議整個網站的權重和流量達到一定規(guī)模之后,再做熱門詞。如果一開始做這樣的關鍵詞,在網站信譽度不是很高的情況下,就會出現沒有流量的情況。這種情況下,網站最好找到自己的一個差異化跟相關的詞可能會更好。

Q:網站是教育行業(yè)的,現在通過官網的認證,就是安全或者權威性的認證,認證之后會不會有潛在的特殊看待或者是無所謂。

A:認證這事比如說你是真的,還有一個假的,從用戶的感知來講你是官網。

Q:數據化的問題,軟件和PDF和Word展示,包括什么類型,多大資源?放出來要以文章的內容放出來,還是PDF和文章是一樣?還有個矛盾點,產品和運營希望用戶下載完之后是直接可用,不會對PDF和WORD產生一些壓縮或工具化處理,有些用戶會經意或者不經意之間引導去下Word,應該怎么做?

A:百度搜索條現在默認叫網頁搜索,顧名思義是我們給用戶展現都是一個網頁。后面還有一個文庫的文件格式。搜索出來都是讓用戶下載用的,可以去好好研究,在文庫里面把內容展現出來。

Q:有沒有一個通道告訴搜索引擎我們的頁面內容發(fā)生變化了,通常怎么處理?一個舊的頁面已經被收錄、被排序,一定周期之后他發(fā)動新的資源的補充和變化?

A:現在還沒有這樣的通道。首先Spider這邊會check一些東西,他發(fā)現網站經常出現這種狀況,他相關的check流量會增加,不放心的話還是把他放到sitemap里。

Q:網站本來只是一個首頁,就是一個APP下載。我們現在把內容放出來,以前這些內容不可抓取,現在用目錄或者子域名放出需要提交改版么?

A:這個就放在域名下,用一個子目錄把分門別類的東西放進去,不存在改版。首頁改一下,其他不存在改版的問題。使用主動推送的工具效果還是非常明顯,如果內容質量很OK,可以把配額都用光。

Q:自動推送的份額是多長的周期調一次?因為我覺得對我們海量千萬級或者是百萬級數據量來說你那個份額太少。

A:我們也關注一個網站是否有這種爆發(fā)性,突然增量這么多,我們認為這很不正常。你還是循序漸進,別短平快,一夜吃成個胖子。第二個,你有這么多優(yōu)秀的數據,你可以關注百度另外一個平臺,你變成API讓別人使用你的數據。別人對你的數用量做付費,可以關注這個。 

Q:超鏈接做URL的絕對路徑和相對路徑會有影響嗎?改版之后,我們頁面有翻頁,翻頁鏈接是12345,上面帶標簽。每次抓的時候不會抓到12345里面去。模擬抓取,感覺抓取不到里面。頁面上的A標簽,Spider都會去抓么?

A:沒有太大的影響,正??梢栽L問就OK。不管是絕對路徑還是相對路徑,只要說這個地址對于Spider或者是對于用戶來講都是暢通的,在頁面呈現的時地址是完整,這個路徑都是能夠順暢來做抓取。

不收錄的問題,可以參考其他的一些點,比如是不是本身頁面就沒被訪問到還是目錄層級比較高。頁面首頁推送的鏈接百度都會去抓,一層一層的。路徑如果正常Spider路徑都是從首頁開始抓取。

首先就要看不被收錄的鏈接志有沒有被抓獲,如果被抓獲沒有被收錄,可能是頁面本身的問題。也可以看一個周期,因為我們用一天時間。第二個是看日志里面有沒有長尾,是不是隱藏或者層級搭建的時候沒有做有效的抓取或者是有效推薦。如果能看日志,可以看日志去分析一下。

可以調整首頁的變化,做一個推薦,做一個測試,看是鏈接的問題還是蜘蛛沒有抓的問題。還有推送等等方式都可以解決,從而判斷不收錄的原因是什么。學院有一個文檔解決關于諸多的問題題,類似于流程圖一樣。當這環(huán)做到了,原因是什么?如果夠長,就可以走下面的分支看看。

Q:站點之前是所有框架通過JS展現,后來百度不收錄,又進行了PHP改版。樣子是一樣,現在感覺這個PHP寫的不太規(guī)范,百度對這個不太規(guī)范收錄是什么樣的?

A:很多酒店行業(yè)的的內容都通不是實時加載出來,是通過JS慢慢獲取頁面上的內容。搜索引擎抓的話就是一個導航,就是這樣的問題。以前空白頁面收錄很多,質量很不好。關于Pattern認為這就低質量的Pattern,內容可能也就這樣,所以考慮換一個目錄。

二、APPLINK問題解答

Q:現在網站的APP已經做好了,加入APPLINK這樣會不會有大的改動?

A:H5的站點跟APP有一個對應關系嗎?比如說這邊是H5站一百條的的內容,那邊是APP的100條內容,要對應起來。重點把網站排的比較靠前,一定要比較好的調起。

Q:現在APP引流是安卓跟IOS,但是也有一少部分是Windows Phone,這APP大概需要多長時間?

A:分兩點說,看一下諾基亞對Windows上面的平臺策略。如果看到他有一些動作的話,我們肯定會關注。因為其實我們早期有一份協(xié)議的關于APPLINK接入協(xié)議里面。我們可以有WindowsPhone調起的機制。用戶點一個結果,點這個結果的話,我們有一個安卓IE在那里,可以接受IE,再傳回給用戶信息。只要把前端實現一些信息就可以做好,勞動量看起來不會很大,是可以實現的。除了WindowsPhone還有手表畢竟也是可以對APP可以調,大家也可以看看。

Q:APP和網頁版,很多APP都是H5網頁套進去,只是一個殼子在里面。百度做的AppLink,他是點完以后從百度APP又彈到糯米APP,又彈走了。他用百度搜數據量很大,百度的用戶可能點下一個網站,你給他推到糯米上去,我們排在后面的人就沒機會了。

A:其實APPLINK調起這個事情不是一個技術壁壘的事情,是一個苦活的事情,對大站點可以自己做調起這個事情。對APPLINK來說以后或許會有在有全方面的調整。對小站來說,小站接入的話目前來說有這個優(yōu)勢。因為小站接入也可以跳到小站內。

Q:加入APPLINK后,如果小站數據不夠,一下就彈出去了?

A:回到你們站內的時候,至少是進入你們自己的生態(tài)。其實從搜索的角度出發(fā),我們是將用戶來滿足用戶的需求,如果我們引導到網站,如果網站無法滿足需求,用戶自然會調走。把用戶導到你們那里,對網站是激勵,滿足用戶需求,我覺得應該是這樣子。

Q:有APPLINK在整個頁面,會出一個分發(fā)按紐,分發(fā)按紐需要滿足怎樣的條件?

A:沒有條件,你把APP包給我們,我們幫你分發(fā)。

Q:現在百度內容做對應的有好幾個除了你們團隊之外,還有手機助手,有區(qū)別么?

A:那個是早期的嘗試,大家也知道移動跟PC都有合并,我們整體是輸出產出一套的方案??赡茉谀甑那鞍攵螘r間我們推這個事情很費勁。我們當時也挺困惑,當時整體整個生態(tài)合并之后,現在比較合理我們整體輸出都由APPLINK做輸出。手機助手不是搜索結果。產出可能在不同的產品線上,APPLINK是出現在搜索結果中。

Q:加入APPLINK對移動站平臺有影響嗎?

A:這個還沒有。但是他會有一個正常的點擊。

Q:安卓生態(tài)里面最麻煩就是有時候調不起來,像這種問題如果沒調起來,會引導下載這樣的操作嗎?

A:一般調不起來有兩種情況,一種就是安裝包,因為安卓或者IOS包,還有一個版本的問題。因為線上提交的版本是用戶非更新了新的版本,或者可能一種情況就是用戶安裝了一個新的版本,但是他已經刪除了,有時候調不起來,這樣情況會訪問到H5站?,F在有套監(jiān)控系統(tǒng),如果去不到H5站,我們會發(fā)現搜索流量異常,有去修復這個事情。最快的情況是將問題反饋處理。

相關推薦:

百度貼吧推廣需要注意的幾個技巧分析

百度推廣賬戶實名認證怎么操作?百度推廣年審加V的操作步驟

標簽:安陽 邵陽 呼倫貝爾 湘西 辛集 三門峽 畢節(jié) 湖州

巨人網絡通訊聲明:本文標題《百度是怎么抓取頁面的?網站SEO的幾個問題解惑》,本文關鍵詞  ;如發(fā)現本文內容存在版權問題,煩請?zhí)峁┫嚓P信息告之我們,我們將及時溝通與處理。本站內容系統(tǒng)采集于網絡,涉及言論、版權與本站無關。
  • 相關文章
  • 收縮
    • 微信客服
    • 微信二維碼
    • 電話咨詢

    • 400-1100-266