HTTP原理
????? ~~~~~ ????? HTTP(Hyper Text Transfer Protocol,超文本傳輸協(xié)議)是一種使用最為廣泛的網(wǎng)絡(luò)請求方式,常見于在瀏覽器輸入一個(gè)地址。文章來源:http://www.zghlxwxcb.cn/news/detail-718686.html
1. URI和URL
- URL(Universal Resource Locator,統(tǒng)一資源定位器)
- URI(Uniform Resource Identifier,統(tǒng)一資源標(biāo)識(shí)符)
- URL 是 URI 的子集,URI還包括一個(gè)子類 URN(Universal Resource Name,統(tǒng)一資源名稱)
- URI 可被視為定位符URL、名稱URN或兩者兼?zhèn)?/li>
- URN 定義某事物的身份,URL提供查找該事物的方法
- URN 僅用于命名,而不指定地址
注: \color{red}{{注:}} 注:在目前互聯(lián)網(wǎng)中,URN 使用很少,幾乎都是 URI 和 URL ,所以一般網(wǎng)頁可以稱URL或URI
2. 超文本
- 瀏覽器中的網(wǎng)頁是由超文本(Hypertext)解析而成
- 網(wǎng)頁源代碼是一系列HTML代碼里面包含一系列標(biāo)簽(如 img 顯示圖片、p 顯示段落),瀏覽器解析這些標(biāo)簽后形成了我們平時(shí)看到的網(wǎng)頁
- 網(wǎng)頁的源代碼比起普通文本能夠描述更多的內(nèi)容,包括網(wǎng)頁的樣式、網(wǎng)頁的構(gòu)成等,這些網(wǎng)頁的源代碼HTML就被稱為超文本
3. HTTP和HTTPS
- HTTP(Hyper Text Transfer Protocol,超文本傳輸協(xié)議)是用于從網(wǎng)絡(luò)傳輸超文本數(shù)據(jù)到本地瀏覽器的傳輸協(xié)議,它能保證高效而準(zhǔn)確地傳送超文本文檔
- HTTPS(Hyper Text Transfer Protocol over Secure Socket Layer,超文本傳輸安全協(xié)議)是以安全為目標(biāo)的 HTTP 通道,是HTTP的安全版,它在普通的 HTTP 下加入TLS (TransportLayer Security,傳輸層安全協(xié)議)
- TLS 是為網(wǎng)絡(luò)通信提供安全及數(shù)據(jù)完整性的一種安全協(xié)議。
- HTTPS的安全基礎(chǔ)是SSL,通過它傳輸?shù)膬?nèi)容都是 SSL加密的,主要作用有兩種
- 建立一個(gè)信息安全通道,保證數(shù)據(jù)傳輸?shù)陌踩?/li>
- 確認(rèn)網(wǎng)站的真實(shí)性,凡是使用 HTTPS 的網(wǎng)站都可以通過單擊瀏覽器地址欄的鎖頭標(biāo)志來查看網(wǎng)站認(rèn)證之后的真實(shí)信息,也可以通過 CA 機(jī)構(gòu)頒發(fā)的安全簽章來查詢
- 一些網(wǎng)站雖然使用HTTPS 協(xié)議,但還是會(huì)被瀏覽器提示不安全,如在Chrome 瀏覽器中打開鏈接,它會(huì)提示“您的連接不是私密連接”
- 原因是某些網(wǎng)站的證書是不被官方機(jī)構(gòu)認(rèn)可的,所以證書驗(yàn)證不通過,但它的數(shù)據(jù)傳輸
依然是 SSL 加密的爬蟲如果要爬取這樣的站點(diǎn),就需要設(shè)置忽略證書的選項(xiàng),否則會(huì)提示SSL 鏈接錯(cuò)誤
- 原因是某些網(wǎng)站的證書是不被官方機(jī)構(gòu)認(rèn)可的,所以證書驗(yàn)證不通過,但它的數(shù)據(jù)傳輸
4. HTTP請求過程
?????
~~~~~
????? 在瀏覽器輸入一個(gè) URL,按回車鍵后,在瀏覽器中觀察頁面內(nèi)容,其中的過程是瀏覽器向網(wǎng)站所在服務(wù)器發(fā)送一個(gè) Request (請求),網(wǎng)站服務(wù)器接收到 Request 后進(jìn)行處理和解析,然后返回對應(yīng)的 Response(響應(yīng)),傳回瀏覽器,Response 中包含頁面的源代碼等內(nèi)容,瀏覽器再對其進(jìn)行解析便會(huì)將網(wǎng)頁呈現(xiàn)出來。
?????
~~~~~
????? 請求頭里面帶有許多請求信息,例如瀏覽器標(biāo)識(shí)、Cookies、Host等信息,這是 Reque的一部分,服務(wù)器會(huì)根據(jù)請求頭內(nèi)的信息判斷請求是否合法,進(jìn)而做出對應(yīng)的響應(yīng),返回Response。例如,其中包含務(wù)器的類型、文檔類型、日期等信息,瀏覽器接收 Response 后,會(huì)解析響應(yīng)內(nèi)容,進(jìn)而呈網(wǎng)頁內(nèi)容。文章來源地址http://www.zghlxwxcb.cn/news/detail-718686.html
到了這里,關(guān)于網(wǎng)絡(luò)爬蟲學(xué)習(xí)筆記 1 HTTP基本原理的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!