主頁(yè) > 知識(shí)庫(kù) > python爬蟲(chóng)之異常捕獲及標(biāo)簽過(guò)濾詳解

python爬蟲(chóng)之異常捕獲及標(biāo)簽過(guò)濾詳解

熱門(mén)標(biāo)簽:客戶服務(wù) 硅谷的囚徒呼叫中心 百度AI接口 呼叫中心市場(chǎng)需求 電話運(yùn)營(yíng)中心 企業(yè)做大做強(qiáng) 語(yǔ)音系統(tǒng) Win7旗艦版

增加異常捕獲,更容易現(xiàn)問(wèn)題的解決方向

import ssl
import urllib.request
from bs4 import BeautifulSoup
from urllib.error import HTTPError, URLError
 
 
def get_data(url):
    headers = {"user-agent":
                   "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36"
               }
    ssl._create_default_https_context = ssl._create_unverified_context
 
    """
    urlopen處增加兩個(gè)異常捕獲:
            1、如果頁(yè)面出現(xiàn)錯(cuò)誤或者服務(wù)器不存在時(shí),會(huì)拋HTTP錯(cuò)誤代碼
            2、如果url寫(xiě)錯(cuò)了或者是鏈接打不開(kāi)時(shí),會(huì)拋URLError錯(cuò)誤
    """
    try:
        url_obj = urllib.request.Request(url, headers=headers)
        response = urllib.request.urlopen(url_obj)
        html = response.read().decode('utf8')
    except (HTTPError, URLError)as e:
        raise e
 
    """
    BeautifulSoup處增加異常捕獲是因?yàn)锽eautifulSoup對(duì)象中有時(shí)候標(biāo)簽實(shí)際不存在時(shí),會(huì)返回None值;
    因?yàn)椴恢?,所以調(diào)用了就會(huì)導(dǎo)致拋出AttributeError: 'NoneType' object has no xxxxxxx。
    """
    try:
        bs = BeautifulSoup(html, "html.parser")
        results = bs.body 
    except AttributeError as e:
        return None
 
    return results
 
 
if __name__ == '__main__':
    print(get_data("https://movie.douban.com/chart"))

解析html,更好的實(shí)現(xiàn)數(shù)據(jù)展示效果

  • get_text():獲取文本信息
# 此處代碼同上面打開(kāi)url代碼一致,故此處省略......
 
html = response.read().decode('utf8')
bs = BeautifulSoup(html, "html.parser")
data = bs.find('span', {'class': 'pl'})
print(f'電影評(píng)價(jià)數(shù):{data}')
print(f'電影評(píng)價(jià)數(shù):{data.get_text()}')

運(yùn)行后的結(jié)果顯示如下:

電影評(píng)價(jià)數(shù):span class="pl">(38054人評(píng)價(jià))/span>
電影評(píng)價(jià)數(shù):(38054人評(píng)價(jià))
  • find() 方法是過(guò)濾HTML標(biāo)簽,查找需要的單個(gè)標(biāo)簽

實(shí)際find方法封裝是調(diào)用了正則find_all方法,把find_all中的limt參數(shù)傳1,獲取單個(gè)標(biāo)簽

1.name:可直接理解為標(biāo)簽元素

2.attrs:字典格式,放屬性和屬性值 {"class": "indent"}

3.recursive:遞歸參數(shù),布爾值,為真時(shí)遞歸查詢子標(biāo)簽

4.text:標(biāo)簽的文本內(nèi)容匹配 , 是標(biāo)簽的文本,標(biāo)簽的文本

  • find_all() 方法是過(guò)濾HTML標(biāo)簽,查找需要的標(biāo)簽組

使用方法適合find一樣的,無(wú)非就是多了個(gè)limit參數(shù)(篩選數(shù)據(jù))

必須注意的小知識(shí)點(diǎn):

#   下面兩種寫(xiě)法,實(shí)際是一樣的功能,都是查詢id為text的屬性值
bs.find_all(id="text")
bs.find_all(' ', {"id": "text"})
#   如果是class的就不能class="x x x"了,因?yàn)閏lass是python中類(lèi)的關(guān)鍵字
bs.find_all(class_="text")
bs.find_all(' ', {"class": "text"})

到此這篇關(guān)于python爬蟲(chóng)之異常捕獲及標(biāo)簽過(guò)濾詳解的文章就介紹到這了,更多相關(guān)python異常捕獲及標(biāo)簽過(guò)濾內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

您可能感興趣的文章:
  • python爬蟲(chóng)之selenium庫(kù)的安裝及使用教程
  • Python中selenium庫(kù)的用法詳解
  • Python Selenium庫(kù)的基本使用教程
  • Python爬蟲(chóng)之Selenium庫(kù)的使用方法
  • python中selenium庫(kù)的基本使用詳解
  • Python中Selenium庫(kù)使用教程詳解
  • Requests什么的通通爬不了的Python超強(qiáng)反爬蟲(chóng)方案!
  • Python爬蟲(chóng)之獲取心知天氣API實(shí)時(shí)天氣數(shù)據(jù)并彈窗提醒
  • 快速搭建python爬蟲(chóng)管理平臺(tái)
  • Python爬蟲(chóng)基礎(chǔ)之selenium庫(kù)的用法總結(jié)

標(biāo)簽:海南 長(zhǎng)沙 喀什 山西 安康 崇左 山西 濟(jì)南

巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《python爬蟲(chóng)之異常捕獲及標(biāo)簽過(guò)濾詳解》,本文關(guān)鍵詞  ;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問(wèn)題,煩請(qǐng)?zhí)峁┫嚓P(guān)信息告之我們,我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無(wú)關(guān)。
  • 相關(guān)文章
  • 收縮
    • 微信客服
    • 微信二維碼
    • 電話咨詢

    • 400-1100-266