一区二区欧美日韩高清,久久久午夜精品理论片,亚洲狠狠丁香婷婷综合久久久

主頁(yè) > 知識(shí)庫(kù) > Python爬蟲(chóng)基礎(chǔ)講解之請(qǐng)求

Python爬蟲(chóng)基礎(chǔ)講解之請(qǐng)求

一、請(qǐng)求目標(biāo)(URL)

URL又叫作統(tǒng)一資源定位符，是用于完整地描述Internet上網(wǎng)頁(yè)和其他資源的地址的一種方法。類似于windows的文件路徑。

二、網(wǎng)址的組成:

1.http://:這個(gè)是協(xié)議，也就是HTTP超文本傳輸協(xié)議，也就是網(wǎng)頁(yè)在網(wǎng)上傳輸?shù)膮f(xié)議。

2.mail:這個(gè)是服務(wù)器名，代表著是一個(gè)郵箱服務(wù)器，所以是mail。

3.163.com:這個(gè)是域名，是用來(lái)定位網(wǎng)站的獨(dú)一無(wú)二的名字。

4.mail.163.com:這個(gè)是網(wǎng)站名，由服務(wù)器名+域名組成。

5./:這個(gè)是根目錄，也就是說(shuō)，通過(guò)網(wǎng)站名找到服務(wù)器，然后在服務(wù)器存放網(wǎng)頁(yè)的根目錄。

6.index.html:這個(gè)是根目錄下的網(wǎng)頁(yè)。

7.http://mail.163.com/index.html:這個(gè)叫做URL，統(tǒng)一資源定位符，全球性地址，用于定位網(wǎng)上的資源。

三、請(qǐng)求體(response)

就像打電話一樣，HTTP到底和服務(wù)器說(shuō)了什么，才能讓服務(wù)器返回正確的消息的，其實(shí)客戶端的請(qǐng)求告訴了服務(wù)器這些內(nèi)容：請(qǐng)求行、請(qǐng)求頭部、空行、請(qǐng)求數(shù)據(jù)

四、請(qǐng)求方法(Method)

HTTP請(qǐng)求可以使用多種請(qǐng)求方法，但是爬蟲(chóng)最主要就兩種方法：GET和POST方法。

get請(qǐng)求:一般情況下，只從服務(wù)器獲取數(shù)據(jù)下來(lái)，并不會(huì)對(duì)服務(wù)器資源產(chǎn)生任何影響的時(shí)候會(huì)使用get請(qǐng)求。

post請(qǐng)求:向服務(wù)器發(fā)送數(shù)據(jù)（登錄)、上傳文件等，會(huì)對(duì)服務(wù)器資源產(chǎn)生影響的時(shí)候會(huì)使用
post請(qǐng)求。

以上是在網(wǎng)站開(kāi)發(fā)中常用的兩種方法。并且一般情況下都會(huì)遵循使用的原則。但是有的網(wǎng)站和服務(wù)器為了做反爬蟲(chóng)機(jī)制，也經(jīng)常會(huì)不按常理出牌，有可能一個(gè)應(yīng)該使用get方法的請(qǐng)求就一定要改成post請(qǐng)求，這個(gè)要視情況而定。

GET與POST方法的區(qū)別:

1.GET是從服務(wù)器上獲取數(shù)據(jù)，POST是向服務(wù)器傳送數(shù)據(jù)

2.GET請(qǐng)求參數(shù)都顯示在瀏覽器網(wǎng)址上，即Get"請(qǐng)求的參數(shù)是URL的一部分。例如: http://www.baidu.com/s?wd=Chinese

3.POST請(qǐng)求參數(shù)在請(qǐng)求體當(dāng)中，消息長(zhǎng)度沒(méi)有限制而且以隱式的方式進(jìn)行發(fā)送，通常用來(lái)向HTTP服務(wù)器提交量比較大的數(shù)據(jù)。請(qǐng)求的參數(shù)類型包含在"Content-Type"消息頭里，指明發(fā)送請(qǐng)求時(shí)要提交的數(shù)據(jù)格式。

注意:

網(wǎng)站制作者一般不會(huì)使用Get方式提交表單，因?yàn)橛锌赡軙?huì)導(dǎo)致安全問(wèn)題。比如說(shuō)在登陸表單中用Get方式，用戶輸入的用戶名和密碼將在地址欄中暴露無(wú)遺。并且瀏覽器會(huì)記錄歷史信息，導(dǎo)致賬號(hào)不安全的因素存在。

五、常用的請(qǐng)求報(bào)頭

請(qǐng)求頭描述了客戶端向服務(wù)器發(fā)送請(qǐng)求時(shí)所使用的編碼，以及發(fā)送內(nèi)容的長(zhǎng)度，告訴服務(wù)器自己有沒(méi)有登陸，采用的什么瀏覽器訪問(wèn)的等等。

1.Accept:瀏覽器告訴服務(wù)器自己接受什么數(shù)據(jù)類型，文字，圖片等。

2.Accept-charset:瀏覽器申明自己接收的字符集。

3.Accept-Encoding:瀏覽器申明自己接收的編碼方法，通常指定壓縮方法，是否支持壓縮，支持什么壓縮方法(gzip, deflate，br)。

4.Accept-Language:瀏覽器申明自己接收的語(yǔ)言。

5.Authorization:授權(quán)信息，通常出現(xiàn)在對(duì)服務(wù)器發(fā)送的WWW-Authenticate頭的應(yīng)答中。

6.content-Length表示請(qǐng)求消息正文的長(zhǎng)度。

7.origin:聲明請(qǐng)求資源的起始位置

8.connection:處理完這次請(qǐng)求后，是斷開(kāi)連接還是繼續(xù)保持連接。9.Cookie:發(fā)送給WEB服務(wù)器的Cookie內(nèi)容，經(jīng)常用來(lái)判斷是否登陸了。

9.Cookie:發(fā)送給WEB服務(wù)器的Cookie內(nèi)容，經(jīng)常用來(lái)判斷是否登陸了。

10.Host:客戶端指定自己想訪問(wèn)的WEB服務(wù)器的域名/IP地址和端口號(hào)。

11.If-Modified-since:客戶機(jī)通過(guò)這個(gè)頭告訴服務(wù)器，資源的緩存時(shí)間。只有當(dāng)所請(qǐng)求的內(nèi)容在指定的時(shí)間后又經(jīng)過(guò)修改才返回它，否則返回304"Not Modified"應(yīng)答。

12.Pragma:指定"no-cache"值表示服務(wù)器必須返回一個(gè)刷新后的文檔，即使它是代理服務(wù)器而且已經(jīng)有了頁(yè)面的本地拷貝。

13.Referer:告訴服務(wù)器該頁(yè)面從哪個(gè)頁(yè)面鏈接的。

14.From∶請(qǐng)求發(fā)送者的email地址，由一些特殊的Web客戶程序使用，瀏覽器不會(huì)用到它。

15.(user-Agent:瀏覽器表明自己的身份(是哪種瀏覽器)

16.upgrade-insecure-requests∶申明瀏覽器支持從http請(qǐng)求自動(dòng)升級(jí)為https請(qǐng)求，并且在以后發(fā)送請(qǐng)求的時(shí)候都使用https。

UA-Pixels,uA-Color,uA-oS,UA-CPU:由某些版本的IE瀏覽器所發(fā)送的非標(biāo)準(zhǔn)的請(qǐng)求頭，表示屏幕大小、顏色深度、操作系統(tǒng)和CPu類型。

六、requests模塊查看請(qǐng)求體

在我們用requests模塊請(qǐng)求數(shù)據(jù)的時(shí)候攜帶上訴請(qǐng)求報(bào)頭的字段信息，將我們的爬蟲(chóng)代碼進(jìn)行偽裝。同樣的偽裝之后我們也可以通過(guò)代碼查看請(qǐng)求體的字段信息，有如下幾種常見(jiàn)的屬性:

#查看請(qǐng)求體中的url地址
response.request.url
#查看請(qǐng)求體中的請(qǐng)求頭信息
response.request.headers
#查看請(qǐng)求體中的請(qǐng)求方法
response.request.method

到此這篇關(guān)于Python爬蟲(chóng)基礎(chǔ)講解之請(qǐng)求的文章就介紹到這了,更多相關(guān)Python請(qǐng)求內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

基于python爬取鏈家二手房信息代碼示例
Python爬蟲(chóng)之爬取二手房信息
python爬取安居客二手房網(wǎng)站數(shù)據(jù)(實(shí)例講解)
Requests什么的通通爬不了的Python超強(qiáng)反爬蟲(chóng)方案！
python使用pywinauto驅(qū)動(dòng)微信客戶端實(shí)現(xiàn)公眾號(hào)爬蟲(chóng)
Python爬蟲(chóng)之m3u8文件里提取小視頻的正確姿勢(shì)
Python爬蟲(chóng)之爬取最新更新的小說(shuō)網(wǎng)站
python爬取鏈家二手房的數(shù)據(jù)

標(biāo)簽：四川惠州黑龍江常德黔西益陽(yáng) 鷹潭上海

巨人網(wǎng)絡(luò)通訊聲明：本文標(biāo)題《Python爬蟲(chóng)基礎(chǔ)講解之請(qǐng)求》，本文關(guān)鍵詞 Python,爬蟲(chóng),基礎(chǔ),講解,之,；如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問(wèn)題，煩請(qǐng)?zhí)峁┫嚓P(guān)信息告之我們，我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò)，涉及言論、版權(quán)與本站無(wú)關(guān)。