主頁 > 知識庫 > Python中Pyspider爬蟲框架的基本使用詳解

Python中Pyspider爬蟲框架的基本使用詳解

熱門標(biāo)簽:江門智能電話機(jī)器人 智能電話機(jī)器人調(diào)研 地圖標(biāo)注可以遠(yuǎn)程操作嗎 如何申請400電話代理 滴滴地圖標(biāo)注公司 甘肅高頻外呼系統(tǒng) 天津塘沽區(qū)地圖標(biāo)注 杭州房產(chǎn)地圖標(biāo)注 400電話在線如何申請

1.pyspider介紹  

     一個國人編寫的強(qiáng)大的網(wǎng)絡(luò)爬蟲系統(tǒng)并帶有強(qiáng)大的WebUI。采用Python語言編寫,分布式架構(gòu),支持多種數(shù)據(jù)庫后端,強(qiáng)大的WebUI支持腳本編輯器,任務(wù)監(jiān)視器,項目管理器以及結(jié)果查看器。

  • 用Python編寫腳本
  • 功能強(qiáng)大的WebUI,包含腳本編輯器,任務(wù)監(jiān)視器,項目管理器和結(jié)果查看器
  • MySQL,MongoDB,Redis,SQLite,Elasticsearch ; PostgreSQL與SQLAlchemy作為數(shù)據(jù)庫后端
  • RabbitMQ,Beanstalk,Redis和Kombu作為消息隊列
  • 任務(wù)優(yōu)先級,重試,定期,按年齡重新抓取等...
  • 分布式架構(gòu),抓取JavaScript頁面,Python 2和3等... 

2.pyspider文檔

1>中文文檔:http://www.pyspider.cn/

2>英文文檔:http://docs.pyspider.org/

3.pyspider安裝

打開cmd命令行工具,執(zhí)行命令

pip install pyspider

出現(xiàn)下圖則安裝成功

4.pyspider啟動服務(wù),進(jìn)入WebUI界面

安裝pyspider后,打開cmd命令工具,執(zhí)行命令來啟動服務(wù)器

pyspider

出現(xiàn)下圖則啟動服務(wù)成功,默認(rèn)地址端口為127.0.0.1:5000

輸入地址127.0.0.1:5000,打開WebUI界面

隊列統(tǒng)計是為了方便查看爬蟲狀態(tài),優(yōu)化爬蟲爬取速度新增的狀態(tài)統(tǒng)計.每個組件之間的數(shù)字就是對應(yīng)不同隊列的排隊數(shù)量.通常來是0或是個位數(shù).如果達(dá)到了幾十甚至一百說明下游組件出現(xiàn)了瓶頸或錯誤,需要分析處理.

新建項目:pyspider與scrapy最大的區(qū)別就在這,pyspider新建項目調(diào)試項目完全在web下進(jìn)行,而scrapy是在命令行下開發(fā)并運行測試.

組名:項目新建后一般來說是不能修改項目名的,如果需要特殊標(biāo)記可修改組名.直接在組名上點鼠標(biāo)左鍵進(jìn)行修改.注意:組名改為delete后如果狀態(tài)為stop狀態(tài),24小時后項目會被系統(tǒng)刪除.

運行狀態(tài):這一欄顯示的是當(dāng)前項目的運行狀態(tài).每個項目的運行狀態(tài)都是單獨設(shè)置的.直接在每個項目的運行狀態(tài)上點鼠標(biāo)左鍵進(jìn)行修改.運行分為五個狀態(tài):TODO,STOP,CHECKING,DEBUG,RUNNING.各狀態(tài)說明:TODO是新建項目后的默認(rèn)狀態(tài),不會運行項目.STOP狀態(tài)是停止?fàn)顟B(tài),也不會運行.CHECHING是修改項目代碼后自動變的狀態(tài).DEBUG是調(diào)試模式,遇到錯誤信息會停止繼續(xù)運行,RUNNING是運行狀態(tài),遇到錯誤會自動嘗試,如果還是錯誤會跳過錯誤的任務(wù)繼續(xù)運行.

速度控制:很多朋友安裝好用說爬的慢,多數(shù)情況是速度被限制了.這個功能就是速度設(shè)置項.rate是每秒爬取頁面數(shù),burst是并發(fā)數(shù).如1/3是三個并發(fā),每秒爬取一個頁面.

簡單統(tǒng)計:這個功能只是簡單的做的運行狀態(tài)統(tǒng)計,5m是五分鐘內(nèi)任務(wù)執(zhí)行情況,1h是一小時內(nèi)運行任務(wù)統(tǒng)計,1d是一天內(nèi)運行統(tǒng)計,all是所有的任務(wù)統(tǒng)計.

運行:run按鈕是項目初次運行需要點的按鈕,這個功能會運行項目的on_start方法來生成入口任務(wù).

任務(wù)列表:顯示最新任務(wù)列表,方便查看狀態(tài),查看錯誤等

結(jié)果查看:查看項目爬取的結(jié)果.

5.創(chuàng)建pyspider項目

點擊上圖中的新建項目按鈕

6.創(chuàng)建后的pyspider項目

到此這篇關(guān)于Python中Pyspider爬蟲框架的基本使用詳解的文章就介紹到這了,更多相關(guān)Pyspider爬蟲框架使用內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

您可能感興趣的文章:
  • python爬蟲框架feapder的使用簡介
  • 一文讀懂python Scrapy爬蟲框架
  • python Scrapy爬蟲框架的使用
  • 詳解Python的爬蟲框架 Scrapy
  • python3 Scrapy爬蟲框架ip代理配置的方法
  • Python3環(huán)境安裝Scrapy爬蟲框架過程及常見錯誤
  • windows下搭建python scrapy爬蟲框架步驟
  • windows7 32、64位下python爬蟲框架scrapy環(huán)境的搭建方法
  • 上手簡單,功能強(qiáng)大的Python爬蟲框架——feapder

標(biāo)簽:重慶 長春 廊坊 漢中 河池 德宏 東莞 臨汾

巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《Python中Pyspider爬蟲框架的基本使用詳解》,本文關(guān)鍵詞  Python,中,Pyspider,爬蟲,框架,;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題,煩請?zhí)峁┫嚓P(guān)信息告之我們,我們將及時溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無關(guān)。
  • 相關(guān)文章
  • 下面列出與本文章《Python中Pyspider爬蟲框架的基本使用詳解》相關(guān)的同類信息!
  • 本頁收集關(guān)于Python中Pyspider爬蟲框架的基本使用詳解的相關(guān)信息資訊供網(wǎng)民參考!
  • 企业400电话

    智能AI客服机器人
    15000

    在线订购

    合计11份范本:公司章程+合伙协议+出资协议+合作协议+股权转让协议+增资扩股协议+股权激励+股东会决议+董事会决议

    推薦文章