2023国产成人精品国产,在线观看91精品国产性色

主頁 > 知識庫 > 通過抓取淘寶評論為例講解Python爬取ajax動態(tài)生成的數(shù)據(jù)(經(jīng)典)

通過抓取淘寶評論為例講解Python爬取ajax動態(tài)生成的數(shù)據(jù)(經(jīng)典)

在學(xué)習(xí)python的時候，一定會遇到網(wǎng)站內(nèi)容是通過 ajax動態(tài)請求、異步刷新生成的json數(shù)據(jù) 的情況，并且通過python使用之前爬取靜態(tài)網(wǎng)頁內(nèi)容的方式是不可以實(shí)現(xiàn)的，所以這篇文章將要講述如果在python中爬取ajax動態(tài)生成的數(shù)據(jù)。

至于讀取靜態(tài)網(wǎng)頁內(nèi)容的方式，有興趣的可以查看本文內(nèi)容。

這里我們以爬取淘寶評論為例子講解一下如何去做到的。

這里主要分為了四步：

一獲取淘寶評論時，ajax請求鏈接（url）

二獲取該ajax請求返回的json數(shù)據(jù)

三使用python解析json數(shù)據(jù)

四保存解析的結(jié)果

步驟一：

獲取淘寶評論時，ajax請求鏈接（url）這里我使用的是Chrome瀏覽器來完成的。打開淘寶鏈接，在搜索框中搜索一個商品，比如“鞋子”，這里我們選擇第一項(xiàng)商品。

然后跳轉(zhuǎn)到了一個新的網(wǎng)頁中。在這里由于我們需要爬取用戶的評論，所以我們點(diǎn)擊累計評價。

然后我們就可以看到用戶對該商品的評價了，這時我們在網(wǎng)頁中右擊選擇審查元素（或者直接使用F12打開）并且選中Network選項(xiàng)，如圖所示：

我們在用戶評論中，翻到底部點(diǎn)擊下一頁或者第二頁，我們在Network中看到動態(tài)添加了幾項(xiàng)，我們選擇開頭為list_detail_rate.htm?itemId=35648967399的一項(xiàng)。

然后點(diǎn)擊該選項(xiàng)，我們可以在右邊選項(xiàng)框中看到有關(guān)該鏈接的信息，我們要復(fù)制Request URL中的鏈接內(nèi)容。

我們在瀏覽器的地址欄中輸入剛才我們獲得url鏈接，打開后我們會發(fā)現(xiàn)頁面返回的是我們所需要的數(shù)據(jù)，不過顯得很亂，因?yàn)檫@是json數(shù)據(jù)。

二獲取該ajax請求返回的json數(shù)據(jù)

下一步，我們就要獲取url中的json數(shù)據(jù)了。我所使用的python編輯器是pycharm，下面看一下python代碼：

# -*- coding: utf-8 -*-
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
import requests
url='https://rate.tmall.com/list_detail_rate.htm?itemId=35648967399spuId=226460655sellerId=1809124267ℴ=3currentPage=1append=0content=1tagId=posi=picture=ua=011UW5TcyMNYQwiAiwQRHhBfEF8QXtHcklnMWc%3D%7CUm5OcktyT3ZCf0B9Qn9GeC4%3D%7CU2xMHDJ7G2AHYg8hAS8WKAYmCFQ1Uz9YJlxyJHI%3D%7CVGhXd1llXGVYYVVoV2pVaFFvWGVHe0Z%2FRHFMeUB4QHxCdkh8SXJcCg%3D%3D%7CVWldfS0RMQ47ASEdJwcpSDdNPm4LNBA7RiJLDXIJZBk3YTc%3D%7CVmhIGCUFOBgkGiMXNwswCzALKxcpEikJMwg9HSEfJB8%2FBToPWQ8%3D%7CV29PHzEfP29VbFZ2SnBKdiAAPR0zHT0BOQI8A1UD%7CWGFBET8RMQszDy8QLxUuDjIJNQA1YzU%3D%7CWWBAED4QMAU%2BASEYLBksDDAEOgA1YzU%3D%7CWmJCEjwSMmJXb1d3T3JMc1NmWGJAeFhmW2JCfEZmWGw6GicHKQcnGCUdIBpMGg%3D%3D%7CW2JfYkJ%2FX2BAfEV5WWdfZUV8XGBUdEBgVXVJciQ%3Disg=82B6A3A1ED52A6996BCA2111C9DAAEE6_ksTS=1440490222698_2142callback=jsonp2143' #這里的url比較長
content=requests.get(url).content

print content #打印出來的內(nèi)容就是我們之前在網(wǎng)頁中獲取到的json數(shù)據(jù)。包括用戶的評論。

這里的content就是我們所需要的json數(shù)據(jù)，下一步就需要我們解析這些個json數(shù)據(jù)了。

三使用python解析json數(shù)據(jù)

# -*- coding: utf-8 -*-
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
import requests
import json
import re
url='https://rate.tmall.com/list_detail_rate.htm?itemId=35648967399spuId=226460655sellerId=1809124267ℴ=3currentPage=1append=0content=1tagId=posi=picture=ua=011UW5TcyMNYQwiAiwQRHhBfEF8QXtHcklnMWc%3D%7CUm5OcktyT3ZCf0B9Qn9GeC4%3D%7CU2xMHDJ7G2AHYg8hAS8WKAYmCFQ1Uz9YJlxyJHI%3D%7CVGhXd1llXGVYYVVoV2pVaFFvWGVHe0Z%2FRHFMeUB4QHxCdkh8SXJcCg%3D%3D%7CVWldfS0RMQ47ASEdJwcpSDdNPm4LNBA7RiJLDXIJZBk3YTc%3D%7CVmhIGCUFOBgkGiMXNwswCzALKxcpEikJMwg9HSEfJB8%2FBToPWQ8%3D%7CV29PHzEfP29VbFZ2SnBKdiAAPR0zHT0BOQI8A1UD%7CWGFBET8RMQszDy8QLxUuDjIJNQA1YzU%3D%7CWWBAED4QMAU%2BASEYLBksDDAEOgA1YzU%3D%7CWmJCEjwSMmJXb1d3T3JMc1NmWGJAeFhmW2JCfEZmWGw6GicHKQcnGCUdIBpMGg%3D%3D%7CW2JfYkJ%2FX2BAfEV5WWdfZUV8XGBUdEBgVXVJciQ%3Disg=82B6A3A1ED52A6996BCA2111C9DAAEE6_ksTS=1440490222698_2142callback=jsonp2143'
cont=requests.get(url).content
rex=re.compile(r'\w+[(]{1}(.*)[)]{1}')
content=rex.findall(cont)[0]
con=json.loads(content,"gbk")
count=len(con['rateDetail']['rateList'])
for i in xrange(count):
  print con['rateDetail']['rateList'][i]['appendComment']['content']

解析：

這里需要導(dǎo)入所要的包，re為正則表達(dá)式需要的包，解析json數(shù)據(jù)需要import json

cont=requests.get(url).content #獲取網(wǎng)頁中json數(shù)據(jù)

rex=re.compile(r'\w+[(]{1}(.*)[)]{1}') #正則表達(dá)式去除cont數(shù)據(jù)中多余的部分，是數(shù)據(jù)成為真正的json格式的數(shù)據(jù){“a”:”b”,”c”:”d”}

con=json.loads(content,”gbk”) 使用json的loads函數(shù) 將content內(nèi)容轉(zhuǎn)化為json庫函數(shù)可以處理的數(shù)據(jù)格式，”gbk”為數(shù)據(jù)的編碼方式，由于win系統(tǒng)默認(rèn)為gbk

count=len(con[‘rateDetail'][‘rateList']) #獲取用戶評論的個數(shù)（這里只是當(dāng)前頁的）

for i in xrange(count):

print con[‘rateDetail'][‘rateList'][i][‘a(chǎn)ppendComment']

#循環(huán)遍歷用戶的評論并輸出（也可以根據(jù)需求保存數(shù)據(jù)，可以查看第四部分）

這里的難點(diǎn)是在雜亂的json數(shù)據(jù)中查找用戶評論的路徑

四保存解析的結(jié)果

這里用戶可以將用戶的評論信息保存到本地，如保存為csv格式。

以上就是本文的全部所述，希望大家喜歡。

您可能感興趣的文章:

python+selenium定時爬取丁香園的新型冠狀病毒數(shù)據(jù)并制作出類似的地圖（部署到云服務(wù)器）
python 爬取疫情數(shù)據(jù)的源碼
用python爬取歷史天氣數(shù)據(jù)的方法示例
Python大數(shù)據(jù)之從網(wǎng)頁上爬取數(shù)據(jù)的方法詳解
python多線程+代理池爬取天天基金網(wǎng)、股票數(shù)據(jù)過程解析
Python如何爬取實(shí)時變化的WebSocket數(shù)據(jù)的方法
實(shí)例講解Python爬取網(wǎng)頁數(shù)據(jù)
Python爬取數(shù)據(jù)并寫入MySQL數(shù)據(jù)庫的實(shí)例
python爬蟲爬取網(wǎng)頁表格數(shù)據(jù)
python爬取網(wǎng)站數(shù)據(jù)保存使用的方法
如何用python爬取微博熱搜數(shù)據(jù)并保存

標(biāo)簽：紅河咸寧荊州佛山揭陽辛集股票商洛

巨人網(wǎng)絡(luò)通訊聲明：本文標(biāo)題《通過抓取淘寶評論為例講解Python爬取ajax動態(tài)生成的數(shù)據(jù)(經(jīng)典)》，本文關(guān)鍵詞通過,抓取,淘寶,評論,為例,；如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題，煩請?zhí)峁┫嚓P(guān)信息告之我們，我們將及時溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò)，涉及言論、版權(quán)與本站無關(guān)。