import requests from bs4 import BeautifulSoup import datetime if __name__=='__main__': url = 'https://www.bilibili.com/v/popular/rank/all' headers = { //設(shè)置自己瀏覽器的請(qǐng)求頭 } page_text=requests.get(url=url,headers=headers).text soup=BeautifulSoup(page_text,'lxml') li_list=soup.select('.rank-list > li') with open('bZhanRank_bs4.txt','w',encoding='utf-8') as fp: fp.write('當(dāng)前爬取熱榜的時(shí)間為:'+str(datetime.datetime.now())+'\n\n') for li in li_list: #解析視頻排行 li_rank=li.find('div',class_='num').string li_rank='視頻排行為:'+li_rank+',' #解析視頻標(biāo)題 li_title=li.find('div',class_='info').a.string.strip() li_title='視頻標(biāo)題為:'+li_title+',' #解析視頻播放量 li_viewCount=li.select('.detail>span')[0].text.strip() li_viewCount='視頻播放量為:'+li_viewCount+', ' #解析彈幕數(shù)量 li_danmuCount = li.select('.detail>span')[1].text.strip() li_danmuCount='視頻彈幕數(shù)量為:'+li_danmuCount+', ' #解析視頻作者 li_upName=li.find('span',class_='data-box up-name').text.strip() li_upName='視頻up主:'+li_upName+', ' #解析綜合評(píng)分 li_zongheScore=li.find('div',class_='pts').div.string li_zongheScore='視頻綜合得分為:'+li_zongheScore fp.write(li_rank+li_title+li_viewCount+li_danmuCount+li_upName+li_zongheScore+'\n')
爬取結(jié)果如下:
import requests from lxml import etree import datetime if __name__ == "__main__": #設(shè)置請(qǐng)求頭 headers = { //設(shè)置自己瀏覽器的請(qǐng)求頭 } #設(shè)置url url = 'https://www.bilibili.com/v/popular/rank/all' #爬取主頁(yè)面的源碼文件 page_text = requests.get(url=url,headers=headers).content.decode('utf-8') #使用etree對(duì)象進(jìn)行實(shí)例化 tree = etree.HTML(page_text) #爬取各視頻的標(biāo)簽所在位置 li_list = tree.xpath('//ul[@class="rank-list"]/li') #對(duì)爬取到的內(nèi)容進(jìn)行存儲(chǔ) with open('./bZhanRank.txt', 'w', encoding='utf-8') as fp: #記錄爬取數(shù)據(jù)的時(shí)間 fp.write('時(shí)間:'+str(datetime.datetime.now())+'\n\n') # 使用循環(huán)結(jié)構(gòu),提取各標(biāo)簽中的所需信息 for li in li_list: #讀取視頻排名 li_rank=li.xpath('.//div[@class="num"]/text()') #[0]使用索引從列表中拿出字符串 li_rank='視頻排行:'+li_rank[0]+'\n' #讀取視頻標(biāo)題 li_title = li.xpath('.//a/text()') li_title='視頻標(biāo)題:'+li_title[0]+'\n' #讀取視頻播放量 li_viewCount=li.xpath('.//div[@class="detail"]/span[1]/text()') #.strip()去掉字符串中多余的空格 li_viewCount='視頻播放量:'+li_viewCount[0].strip()+'\n' #讀取視頻彈幕數(shù)量 li_barrageCount = li.xpath('.//div[@class="detail"]/span[2]/text()') li_barrageCount='視頻彈幕數(shù)量:'+li_barrageCount[0].strip()+'\n' #讀取視頻up主昵稱 li_upName=li.xpath('.//span[@class="data-box up-name"]//text()') li_upName='視頻up主:'+li_upName[0].strip()+'\n' #讀取視頻的綜合評(píng)分 li_score=li.xpath('.//div[@class="pts"]/div/text()') li_score='視頻綜合評(píng)分:'+li_score[0]+'\n\n' #存儲(chǔ)文件 fp.write(li_rank+li_title+li_viewCount+li_barrageCount+li_upName+li_score) print(li_rank+'爬取成功!!!!')
爬取結(jié)果如下:
#----------第三方庫(kù)導(dǎo)入---------- import requests#爬取網(wǎng)頁(yè)源代碼 from lxml import etree#使用xpath進(jìn)行數(shù)據(jù)解析 import datetime#添加爬取數(shù)據(jù)的時(shí)刻 from PIL import Image#用于打開和重加載圖片 from cv2 import cv2#對(duì)圖片進(jìn)行二值化處理 from io import BytesIO#對(duì)圖片進(jìn)行格式轉(zhuǎn)換 import re#對(duì)源代碼進(jìn)行正則處理 #----------函數(shù)---------- def dJpg(url,title): """ 輸入url 然后對(duì)b站webp格式的圖片 進(jìn)行格式轉(zhuǎn)換為jpeg后 進(jìn)行保存 :param url:(url) :return:(null+保存圖片文件) """ headers = { //設(shè)置自己瀏覽器的請(qǐng)求頭 } resp = requests.get(url, headers=headers) byte_stream = BytesIO(resp.content) im = Image.open(byte_stream) if im.mode == "RGBA": im.load() background = Image.new("RGB", im.size, (255, 255, 255)) background.paste(im, mask=im.split()[3]) im.save(title+'.jpg', 'JPEG') def handle_image(img_path): """ 對(duì)RGB三通道圖片進(jìn)行二值化處理 :param img_path:(圖片路徑) :return:(返回處理后的圖片) """ # 讀取圖片 img = cv2.imread(img_path) # 將圖片轉(zhuǎn)化成灰度圖 gray = cv2.cvtColor(img, cv2.COLOR_RGB2GRAY) # 將灰度圖轉(zhuǎn)化成二值圖,像素值超過(guò)127的都會(huì)被重新賦值成255 ret, binary = cv2.threshold(gray, 127, 255, cv2.THRESH_BINARY) return binary #----------程序主入口---------- if __name__ == "__main__": #-----變量存放----- list_rank = [] # 存放視頻標(biāo)題的列表 list_pic_url = [] # 存放圖片網(wǎng)址的列表 #-----數(shù)據(jù)解析(除圖片外)----- #設(shè)置請(qǐng)求頭 headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36 SLBrowser/7.0.0.2261 SLBChan/10' } #設(shè)置url url = 'https://www.bilibili.com/v/popular/rank/all' #爬取主頁(yè)面的源碼文件 page_text = requests.get(url=url,headers=headers).content.decode('utf-8') #使用etree對(duì)象進(jìn)行實(shí)例化 tree = etree.HTML(page_text) #爬取各視頻的標(biāo)簽所在位置 li_list = tree.xpath('//ul[@class="rank-list"]/li') #-----數(shù)據(jù)解析(圖片)----- # 由于無(wú)法對(duì)圖片的網(wǎng)址進(jìn)行標(biāo)簽定位,現(xiàn)對(duì)源代碼進(jìn)行正則處理 others_ex = r'"others".*?"tid"(.*?)]' list_others = re.findall(others_ex, page_text, re.S) # 使用循環(huán)替換掉源代碼中others部分 for l in list_others: page_text = page_text.replace(l, '') pic_ex = r'"copyright":.*?,"pic":"(.*?)","title":".*?"' list_pic = re.findall(pic_ex, page_text, re.S) # 獲取圖片url組成部分的索引 index = list_pic[0].rfind('u002F') #對(duì)爬取到的url關(guān)鍵字進(jìn)行拼接組成一個(gè)完整的url for i in list_pic: pic_url = 'http://i1.hdslb.com/bfs/archive/' + i[index + 5:] + '@228w_140h_1c.webp' list_pic_url.append(pic_url) #-----數(shù)據(jù)保存----- #對(duì)爬取到的內(nèi)容進(jìn)行存儲(chǔ) with open('./bZhanRank2.txt', 'w', encoding='utf-8') as fp: #記錄爬取數(shù)據(jù)的時(shí)間 fp.write('b站視頻排行榜,'+'時(shí)間:'+str(datetime.datetime.now())+'\n') fp.write('作者:MB\n') fp.write('*'*10+'以下為排行榜內(nèi)容'+'*'*10+'\n\n') # 使用循環(huán)結(jié)構(gòu),提取各標(biāo)簽中的所需信息 for i in range(len(li_list)): #讀取視頻排名 li_rank=li_list[i].xpath('.//div[@class="num"]/text()') pic_title=li_rank#將不含中文的視頻排行作為圖片名稱進(jìn)行賦值 #[0]使用索引從列表中拿出字符串 li_rank='視頻排行:'+li_rank[0]+'\n' #讀取視頻標(biāo)題 li_title =li_list[i].xpath('.//a/text()') li_title='視頻標(biāo)題:'+li_title[0]+'\n' #讀取視頻播放量 li_viewCount=li_list[i].xpath('.//div[@class="detail"]/span[1]/text()') #.strip()去掉字符串中多余的空格 li_viewCount='視頻播放量:'+li_viewCount[0].strip()+'\n' #讀取視頻彈幕數(shù)量 li_barrageCount = li_list[i].xpath('.//div[@class="detail"]/span[2]/text()') li_barrageCount='視頻彈幕數(shù)量:'+li_barrageCount[0].strip()+'\n' #讀取視頻up主昵稱 li_upName=li_list[i].xpath('.//span[@class="data-box up-name"]//text()') li_upName='視頻up主:'+li_upName[0].strip()+'\n' #讀取視頻的綜合評(píng)分 li_score=li_list[i].xpath('.//div[@class="pts"]/div/text()') li_score='視頻綜合評(píng)分:'+li_score[0]+'\n\n' # 存儲(chǔ)視頻信息(除圖片外) fp.write(li_rank + li_title + li_viewCount + li_barrageCount + li_upName + li_score) #使用函數(shù)處理圖片的url并且保存為jpeg格式 dJpg(list_pic_url[i], str(pic_title)) #使用函數(shù)對(duì)jpeg格式的餓圖片進(jìn)行二值化處理 img = handle_image(str(pic_title) + '.jpg') # 強(qiáng)制設(shè)置圖片大?。榉乐褂浭卤镜男辛写笮∫绯觯? img = cv2.resize(img, (120, 40)) height, width = img.shape for row in range(0, height): for col in range(0, width): # 像素值為0即黑色,那么將字符‘1'寫入到txt文件 if img[row][col] == 0: ch = '1' fp.write(ch) # 否則寫入空格 else: fp.write(' ') fp.write('*\n') fp.write('\n\n\n') print(li_rank + '爬取成功!!!!')
在記事本進(jìn)行顯示結(jié)果之前需要對(duì)記事本的格式進(jìn)行下列更改以獲得更好的視覺(jué)效果:
爬取結(jié)果如下:(圖片展示,是下載網(wǎng)頁(yè)中的的封面圖片(webp格式),首先對(duì)其進(jìn)行格式轉(zhuǎn)換為jpg格式,然后對(duì)其進(jìn)行二值化處理(對(duì)于像素值大于127的像素點(diǎn)直接賦值為0,對(duì)于像素值大于127的像素點(diǎn)直接賦值為1)。然后遍歷所有的像素點(diǎn),對(duì)于像素值為0的像素點(diǎn)(即為黑色),寫入“1”,對(duì)于像素值為1的像素點(diǎn)(即為白色),寫入“空格”,實(shí)現(xiàn)簡(jiǎn)單的圖片模擬顯示。)
水平線上和水平線下的圖片并非一個(gè)時(shí)間點(diǎn)進(jìn)行爬取。
上述圖片為了均衡文字顯示與圖像顯示之間的關(guān)系,所以圖片大小強(qiáng)制設(shè)定為較小的尺寸,圖片顯示并不清晰。要讓圖片顯示清晰,可以不考慮文字顯現(xiàn)效果,將圖片的尺寸設(shè)置較大并且更改記事本中的字體大小(以防串行),可以進(jìn)行圖片較為清晰的展示,如下圖所示。
(1)獲取url——獲取b站視頻排行榜的網(wǎng)址
(2)獲取請(qǐng)求頭——(右擊—檢查),打開開發(fā)者工具,點(diǎn)擊Network,隨便選擇一個(gè)數(shù)據(jù)包,復(fù)制其中的請(qǐng)求頭即可
(3)網(wǎng)頁(yè)分析——點(diǎn)擊開發(fā)者工具左上角的抓手工具,選中頁(yè)面中視頻,發(fā)現(xiàn)每個(gè)不同的視頻都存放在不同的li標(biāo)簽中
(4)網(wǎng)頁(yè)分析——選中頁(yè)面中視頻的標(biāo)題,發(fā)現(xiàn)標(biāo)題內(nèi)容存放在一個(gè)a標(biāo)簽的文本內(nèi)容中,剩下的視頻信息尋找方式同上述。
(5)網(wǎng)頁(yè)分析——在查看到視頻播放量信息時(shí),發(fā)現(xiàn)其存放在span標(biāo)簽下,含有空格,在編寫代碼時(shí),使用strip()方法進(jìn)行去除空格
(6)調(diào)試代碼——調(diào)試代碼時(shí),爬取的圖片url的列表為空
(7)排錯(cuò)——檢查圖片url存放標(biāo)簽位置,發(fā)現(xiàn)位置正確
(8)排錯(cuò)——爬取信息為空,可能網(wǎng)頁(yè)為減輕加載負(fù)擔(dān),使用的是JavaScript異步加載,在開發(fā)者工具中,點(diǎn)擊XHR,在數(shù)據(jù)包中尋找存放圖片url的數(shù)據(jù)包,發(fā)現(xiàn)并不存在
(9)排錯(cuò)——(右鍵—查看網(wǎng)頁(yè)源代碼),在源代碼中搜索圖片的url,發(fā)現(xiàn)所有圖片的url全部存放在網(wǎng)頁(yè)源代碼的最后面,可以考慮使用正則表達(dá)式進(jìn)行解析
(10)排錯(cuò)——使用正則解析的過(guò)程中,返現(xiàn)others列表,此列表為部分視頻下方的視頻推薦,需進(jìn)行刪除,否則影響正則表達(dá)式進(jìn)行解析
到此這篇關(guān)于Python爬蟲之爬取嗶哩嗶哩熱門視頻排行榜的文章就介紹到這了,更多相關(guān)Python爬取B站排行榜內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
標(biāo)簽:臺(tái)灣 三沙 景德鎮(zhèn) 宿遷 黃山 濟(jì)南 喀什 欽州
巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《Python爬蟲之爬取嗶哩嗶哩熱門視頻排行榜》,本文關(guān)鍵詞 Python,爬蟲,之爬,取嗶,哩嗶,;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問(wèn)題,煩請(qǐng)?zhí)峁┫嚓P(guān)信息告之我們,我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無(wú)關(guān)。