在專門供爬蟲初學(xué)者訓(xùn)練爬蟲技術(shù)的網(wǎng)站(http://quotes.toscrape.com)上爬取名言警句。
在開始爬取之前,必須創(chuàng)建一個(gè)新的Scrapy項(xiàng)目。進(jìn)入您打算存儲(chǔ)代碼的目錄中,運(yùn)行下列命令:
(base) λ scrapy startproject quotes New scrapy project 'quotes ', using template directory 'd: \anaconda3\lib\site-packages\scrapy\temp1ates\project ', created in: D:\XXX You can start your first spider with : cd quotes scrapy genspider example example. com
首先切換到新建的爬蟲項(xiàng)目目錄下,也就是/quotes目錄下。然后執(zhí)行創(chuàng)建爬蟲文件的命令:
D:\XXX(master) (base) λ cd quotes\ D:\XXX\quotes (master) (base) λ scrapy genspider quotes quotes.com cannot create a spider with the same name as your project D :\XXX\quotes (master) (base) λ scrapy genspider quote quotes.com created spider 'quote' using template 'basic' in module:quotes.spiders.quote
該命令將會(huì)創(chuàng)建包含下列內(nèi)容的quotes目錄:
robots協(xié)議也叫robots.txt(統(tǒng)一小寫)是一種存放于網(wǎng)站根目錄下的ASCII編碼的文本文件,它通常告訴網(wǎng)絡(luò)搜索引擎的網(wǎng)絡(luò)蜘蛛,此網(wǎng)站中的哪些內(nèi)容是不應(yīng)被搜索引擎的爬蟲獲取的,哪些是可以被爬蟲獲取的。
robots協(xié)議并不是一個(gè)規(guī)范,而只是約定俗成的。
#filename : settings.py #obey robots.txt rules ROBOTSTXT__OBEY = False
編寫爬蟲程序之前,首先需要對(duì)待爬取的頁面進(jìn)行分析,主流的瀏覽器中都帶有分析頁面的工具或插件,這里我們選用Chrome瀏覽器的開發(fā)者工具(Tools→Developer tools)分析頁面。
在Chrome瀏覽器中打開頁面http://lquotes.toscrape.com,然后選擇"Elements",查看其HTML代碼。
可以看到每一個(gè)標(biāo)簽都包裹在
分析完頁面后,接下來編寫爬蟲。在Scrapy中編寫一個(gè)爬蟲, 在scrapy.Spider中編寫代碼Spider是用戶編寫用于從單個(gè)網(wǎng)站(或者-些網(wǎng)站)爬取數(shù)據(jù)的類。
其包含了-個(gè)用于下載的初始URL,如何跟進(jìn)網(wǎng)頁中的鏈接以及如何分析頁面中的內(nèi)容,提取生成item的方法。
為了創(chuàng)建一個(gè)Spider, 您必須繼承scrapy.Spider類,且定義以下三個(gè)屬性:
import scrapy class QuoteSpi der(scrapy . Spider): name ='quote' allowed_ domains = [' quotes. com '] start_ urls = ['http://quotes . toscrape . com/'] def parse(self, response) : pass
下面對(duì)quote的實(shí)現(xiàn)做簡(jiǎn)單說明。
1.提取頁面中的數(shù)據(jù)(re、XPath、CSS選擇器)
2.提取頁面中的鏈接,并產(chǎn)生對(duì)鏈接頁面的下載請(qǐng)求。
頁面解析函數(shù)通常被實(shí)現(xiàn)成一個(gè)生成器函數(shù),每一項(xiàng)從頁面中提取的數(shù)據(jù)以及每一個(gè)對(duì)鏈接頁面的下載請(qǐng)求都由yield語句提交給Scrapy引擎。
import scrapy def parse(se1f,response) : quotes = response.css('.quote ') for quote in quotes: text = quote.css( '.text: :text ' ).extract_first() auth = quote.css( '.author : :text ' ).extract_first() tages = quote.css('.tags a: :text' ).extract() yield dict(text=text,auth=auth,tages=tages)
重點(diǎn):
在/quotes目錄下運(yùn)行scrapycrawlquotes即可運(yùn)行爬蟲項(xiàng)目。
運(yùn)行爬蟲之后發(fā)生了什么?
Scrapy為Spider的start_urls屬性中的每個(gè)URL創(chuàng)建了scrapy.Request對(duì)象,并將parse方法作為回調(diào)函數(shù)(callback)賦值給了Request。
Request對(duì)象經(jīng)過調(diào)度,執(zhí)行生成scrapy.http.Response對(duì)象并送回給spider parse()方法進(jìn)行處理。
完成代碼后,運(yùn)行爬蟲爬取數(shù)據(jù),在shell中執(zhí)行scrapy crawl SPIDER_NAME>命令運(yùn)行爬蟲'quote',并將爬取的數(shù)據(jù)存儲(chǔ)到csv文件中:
(base) λ scrapy craw1 quote -o quotes.csv 2021-06-19 20:48:44 [scrapy.utils.log] INF0: Scrapy 1.8.0 started (bot: quotes)
等待爬蟲運(yùn)行結(jié)束后,就會(huì)在當(dāng)前目錄下生成一個(gè)quotes.csv的文件,里面的數(shù)據(jù)已csv格式存放。
-o支持保存為多種格式。保存方式也非常簡(jiǎn)單,只要給上文件的后綴名就可以了。(csv、json、pickle等)
到此這篇關(guān)于Python爬蟲基礎(chǔ)之初次使用scrapy爬蟲實(shí)例的文章就介紹到這了,更多相關(guān)Python scrapy框架內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
標(biāo)簽:宜昌 上饒 珠海 盤錦 西寧 湖北 潮州 佳木斯
巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《Python爬蟲基礎(chǔ)之初次使用scrapy爬蟲實(shí)例》,本文關(guān)鍵詞 Python,爬蟲,基礎(chǔ),之,初次,;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題,煩請(qǐng)?zhí)峁┫嚓P(guān)信息告之我們,我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無關(guān)。