国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

代理ip的使用方法——Python爬蟲

這篇具有很好參考價值的文章主要介紹了代理ip的使用方法——Python爬蟲。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報違法"按鈕提交疑問。

本文內(nèi)容:代理ip使用原理,如何在自己的爬蟲里設(shè)置代理ip,如何知道代理ip有沒有生效,沒生效的話是哪里出了問題,個人使用的代理ip(付費(fèi))。

目錄

代理ip原理

? ? ? 輸入網(wǎng)址后發(fā)生了什么呢?

? ? ? 代理ip做了什么呢?

? ? ? 為什么要用代理呢?

?爬蟲代碼中使用代理ip

?代理ip的獲取

?檢驗(yàn)代理ip是否生效

未生效問題排查

? ? 1.請求協(xié)議不匹配

? ? 2.代理失效

代理ip原理

輸入網(wǎng)址后發(fā)生了什么呢?

  1. 瀏覽器獲取域名
  2. 瀏覽器渲染結(jié)果
  3. 四次揮手釋放TCP連接
  4. 服務(wù)器將查詢結(jié)果返回給瀏覽器
  5. 瀏覽器通過HTTP協(xié)議向服務(wù)器發(fā)送數(shù)據(jù)請求
  6. 通過DNS協(xié)議獲取域名對應(yīng)服務(wù)器的ip地址
  7. 瀏覽器和對應(yīng)的服務(wù)器通過三次握手建立TCP連接

其中涉及到了:

應(yīng)用層:HTTP和DNS

傳輸層:TCP UDP

網(wǎng)絡(luò)層:IP ICMP ARP

代理ip做了什么呢?

簡單一點(diǎn)來說,使用代理ip就是:

原本你的訪問目標(biāo)網(wǎng)站

爬蟲代理ip如何使用,python爬蟲小知識,服務(wù)器,網(wǎng)絡(luò),運(yùn)維

使用代理ip后你的訪問目標(biāo)網(wǎng)站

?爬蟲代理ip如何使用,python爬蟲小知識,服務(wù)器,網(wǎng)絡(luò),運(yùn)維

為什么要用代理ip呢?

我們在爬取數(shù)據(jù)的時候,如果使用自己的真實(shí)ip去訪問目標(biāo)網(wǎng)站,會有很大的風(fēng)險被網(wǎng)站記錄。而怎么才能避免我們的真實(shí)ip被網(wǎng)站記錄呢,那就需要使用代理ip來給我們套上一層偽裝,來讓目標(biāo)網(wǎng)站檢測不到我們的真實(shí)ip地址。除了這種情況,有的網(wǎng)站限制了一些地區(qū)的ip地址,如果不使用代理的話,我們就無法正常訪問目標(biāo)網(wǎng)站了,所以我們很多時候需要使用代理ip:

爬蟲代理ip如何使用,python爬蟲小知識,服務(wù)器,網(wǎng)絡(luò),運(yùn)維

爬蟲代碼中使用代理ip

就像是請求時偽裝頭一樣,偽裝ip,注意是 { }

爬蟲代理ip如何使用,python爬蟲小知識,服務(wù)器,網(wǎng)絡(luò),運(yùn)維

代理ip的獲取

?????像我們剛剛的proxies存儲的代理,是可以直接作為參數(shù)傳進(jìn)requests里面使用的。那現(xiàn)在我們就來做這個proxies。

?????首先打開一個代理IP提供商,我這里選擇的是站大爺,我們一般使用api獲取,也就是接口直接獲取我們需要的ip,由供應(yīng)商返回提供給我們的ip信息:

爬蟲代理ip如何使用,python爬蟲小知識,服務(wù)器,網(wǎng)絡(luò),運(yùn)維

?可以根據(jù)自己需要的情況設(shè)置:

爬蟲代理ip如何使用,python爬蟲小知識,服務(wù)器,網(wǎng)絡(luò),運(yùn)維

?????這里從URL點(diǎn)擊進(jìn)去使用生成的API接口鏈接來做演示,會生成一個url鏈接,我們requests直接去請求這個鏈接,就可以獲得這個代理IP的詳細(xì)信息。

# 拿到供應(yīng)商給我們的代理IP
URL = "https://www.zdaye.net/?utm-source=csdnhao&utm-keyword=%3Fcsdnhao"
 
# 這里參數(shù)控制了數(shù)量 格式 和ip協(xié)議等等 這也算是它的一個優(yōu)勢吧,多的話可以提取幾百,而且可以指定城市從固定地點(diǎn)提取ip,更符合爬蟲模擬人類的行為特征。
url = "http://api.proxy.zdaye.io/getProxyIp?num=1&return_type=txt&lb=1&sb=0&flow=1&regions=&protocol=http"
 
# 輸出ip
res = requests.get(url)
print(res.text)
# 這個ip就可以放在我們實(shí)際要請求的網(wǎng)頁requests中了

檢驗(yàn)代理ip是否生效

我們訪問一個網(wǎng)站,這個網(wǎng)站會返回我們的ip地址:

print(requests.get('http://httpbin.org/ip', proxies=proxies, timeout=3).text)

重點(diǎn)來了,我使用代理IP進(jìn)行訪問,如果返回來不是我們自己的IP,說明代理ip可用,可以偽裝,也可以幫我們帶回想要的信息。

我們看一下剛才我使用了四個不同的代理ip,結(jié)果是全部生效了,

爬蟲代理ip如何使用,python爬蟲小知識,服務(wù)器,網(wǎng)絡(luò),運(yùn)維

未生效問題排查

如果你返回的還是本機(jī)地址,99%試一下兩種情況之一:

1.請求協(xié)議不匹配

簡單一點(diǎn)來說那就是,你請求的是http格式,那就要使用http的協(xié)議,是https格式,就要使用https的協(xié)議。

爬蟲代理ip如何使用,python爬蟲小知識,服務(wù)器,網(wǎng)絡(luò),運(yùn)維

如果我請求是http ,但只有https,就會使用本機(jī)ip。

?????繼續(xù)重點(diǎn),我們獲取的代理是兩種都支持的,但是要自己像我這樣設(shè)置,就像去買了條魚準(zhǔn)備放生。卻又不把魚丟河里去,你不讓它去水里,它當(dāng)然游不起來,這屬于我們自己的問題。

2.代理失效

??當(dāng)我們使用的是免費(fèi)代理或者一些廉價的普匿代理,那失效就是必然的了。使用代理還是建議選擇一些優(yōu)質(zhì)的,名氣大一點(diǎn)的代理。文章來源地址http://www.zghlxwxcb.cn/news/detail-754771.html

到了這里,關(guān)于代理ip的使用方法——Python爬蟲的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 【Python】爬蟲代理IP的使用+建立代理IP池

    【Python】爬蟲代理IP的使用+建立代理IP池

    目錄 前言 一、代理IP 1. 代理IP的獲取 2. 代理IP的驗(yàn)證 3. 代理IP的使用 二、建立代理IP池 1. 代理IP池的建立 2. 動態(tài)維護(hù)代理IP池 三、完整代碼 總結(jié) 前言 在進(jìn)行網(wǎng)絡(luò)爬蟲開發(fā)時,我們很容易遭遇反爬蟲機(jī)制的阻礙。為了規(guī)避反爬蟲機(jī)制,我們可以使用代理IP。代理IP是指通過代

    2024年02月22日
    瀏覽(17)
  • Python 網(wǎng)頁爬蟲原理及代理 IP 使用

    Python 網(wǎng)頁爬蟲原理及代理 IP 使用

    目錄 前言 一、Python 網(wǎng)頁爬蟲原理 二、Python 網(wǎng)頁爬蟲案例 步驟1:分析網(wǎng)頁 步驟2:提取數(shù)據(jù) 步驟3:存儲數(shù)據(jù) 三、使用代理 IP 四、總結(jié) 前言 隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)上的信息量變得越來越龐大。對于數(shù)據(jù)分析人員和研究人員來說,獲取這些數(shù)據(jù)是一項(xiàng)重要的任務(wù)。Python

    2024年02月09日
    瀏覽(28)
  • python爬蟲,如何在代理的IP被封后立刻換下一個IP繼續(xù)任務(wù)?

    python爬蟲,如何在代理的IP被封后立刻換下一個IP繼續(xù)任務(wù)?

    前言 在實(shí)際的爬蟲應(yīng)用中,爬蟲程序經(jīng)常會通過代理服務(wù)器來進(jìn)行網(wǎng)絡(luò)訪問,以避免訪問過于頻繁而受到網(wǎng)站服務(wù)器的限制。但是,代理服務(wù)器的IP地址也可能被目標(biāo)網(wǎng)站限制,導(dǎo)致無法正常訪問。這時候,我們需要在代理IP被封后立刻換下一個IP繼續(xù)任務(wù),以保證爬蟲的正常

    2024年02月06日
    瀏覽(23)
  • 【Python爬蟲】selenium的詳細(xì)使用方法

    【Python爬蟲】selenium的詳細(xì)使用方法

    selenium是一個用于web應(yīng)用測試的工具,selenium所做的測試會直接運(yùn)行在瀏覽器中,就像真人進(jìn)行操作一樣,像是打開瀏覽器,輸入賬號密碼登錄等等。目前selenium支持大部分的瀏覽器,例如:IE,Mozilla Firefox,Safari,Google Chrome,Opera,Edge等等瀏覽器,selenium是一個相當(dāng)成功的開

    2024年02月07日
    瀏覽(22)
  • Python爬蟲實(shí)戰(zhàn)(六)——使用代理IP批量下載高清小姐姐圖片(附上完整源碼)

    Python爬蟲實(shí)戰(zhàn)(六)——使用代理IP批量下載高清小姐姐圖片(附上完整源碼)

    本次爬取的目標(biāo)是某網(wǎng)站4K高清小姐姐圖片: 實(shí)現(xiàn)批量下載指定的圖片,存放到指定文件夾中: Python:3.10 編輯器:PyCharm 第三方模塊,自行安裝: 爬蟲使用代理IP的好處有以下幾點(diǎn): 輪換IP地址 :使用代理IP可以輪換IP地址,降低被封禁的風(fēng)險,從而保持爬取的連續(xù)性

    2024年02月07日
    瀏覽(89)
  • 【Python爬蟲】requests庫get和post方法使用

    requests庫是一個常用于http請求的模塊,性質(zhì)是和urllib,urllib2是一樣的,作用就是向指定目標(biāo)網(wǎng)站的后臺服務(wù)器發(fā)起請求,并接收服務(wù)器返回的響應(yīng)內(nèi)容。 1. 安裝requests庫 使用pip install requests安裝 如果再使用pip安裝python模塊出現(xiàn)timeout超時異常,可使用國內(nèi)豆瓣源進(jìn)行安裝。

    2024年02月22日
    瀏覽(15)
  • 如何在Python中使用代理IP?

    前言 ? ? ? ? 在網(wǎng)絡(luò)爬蟲開發(fā)中,使用代理IP是非常常見的技巧。代理服務(wù)器可以讓我們的爬蟲請求偽裝成其他的用戶或者其他地點(diǎn)的請求,達(dá)到防止被反爬蟲或者加速爬蟲請求的效果。 Python作為一門強(qiáng)大的編程語言,也提供了很多方法來使用代理IP。下面,我將就如何在

    2024年02月15日
    瀏覽(26)
  • python爬蟲-代理ip理解

    python爬蟲-代理ip理解

    目錄 1、為什么使用代理IP 2、代理IP 3、IP池 4、代理分類: 5、python中使用代理IP 6、如何找可以使用的代理IP 7、拿到IP后,測試IP的有效性 8、擴(kuò)展理解正向代理和反向代理 1、為什么使用代理IP 就是為了防止ip被封禁,提高爬蟲的效率和穩(wěn)定;? 反反爬使用代理ip是非常必要的

    2024年02月02日
    瀏覽(24)
  • 【Python爬蟲筆記】爬蟲代理IP與訪問控制

    【Python爬蟲筆記】爬蟲代理IP與訪問控制

    一、前言 在進(jìn)行網(wǎng)絡(luò)爬蟲的開發(fā)過程中,有許多限制因素阻礙著爬蟲程序的正常運(yùn)行,其中最主要的一點(diǎn)就是反爬蟲機(jī)制。為了防止爬蟲程序在短時間內(nèi)大量地請求同一個網(wǎng)站,網(wǎng)站管理者會使用一些方式進(jìn)行限制。這時候,代理IP就是解決方案之一。 本文主要介紹如何在爬

    2024年02月09日
    瀏覽(20)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包