国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Python爬蟲教程：使用requests、wget和urllib3下載圖片和PDF文件

2年前作者：輕煙飄蕩分類：Toy博客閱讀(25)違法舉報(bào)

這篇具有很好參考價值的文章主要介紹了Python爬蟲教程：使用requests、wget和urllib3下載圖片和PDF文件。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

Python,Python爬蟲,Python requests wget urllib3,Python 圖片下載,Python PDF文件下載
之前的文章有關(guān)于更多操作方式詳細(xì)解答，本篇基于前面的知識點(diǎn)進(jìn)行操作，如果不了解可以先看之前的文章
Python爬蟲（1）一次性搞定Selenium(新版)8種find_element元素定位方式
Python爬蟲（2）-Selenium控制瀏覽器
Python爬蟲（3）-Selenium結(jié)合pywin32模擬鍵盤操作
Python爬蟲（4）-Selenium模擬鼠標(biāo)操作

Python爬蟲（5）-selenium用顯式等待、隱式等待、強(qiáng)制等待，解決反復(fù)爬取網(wǎng)頁時無法定位元素問題

selenium下載圖片和PDF的文件的方式有很多種，可以使用自帶的下載方式，也可以使用模擬鼠標(biāo)右鍵點(diǎn)擊的方式去儲存和下載不過這兩種方式都不太推薦使用，因?yàn)槲覀兊氖褂?/p>

selenium的目的主要是為了做一些爬蟲，爬蟲多數(shù)時候需要下載大量的圖片和文件，這里就需要使用其他的方式來進(jìn)行下載文件

下載前的工作，需要定位好圖片的地址
Python,Python爬蟲,Python requests wget urllib3,Python 圖片下載,Python PDF文件下載
完成定位之后我們需要獲取到圖片的地址也就是src

from selenium import webdriver
from selenium.webdriver import Chrome, ChromeOptions
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
opt = ChromeOptions()            # 創(chuàng)建Chrome參數(shù)對象opt.headless = False            # 把Chrome設(shè)置成可視化無界面模式，windows/Linux 皆可driver = Chrome(options=opt)driver.get('https://www.pexels.com/zh-cn/photo/931177/')ab = driver.find_element(By.XPATH,'//*[@id="__next"]/main/div/div[2]/div/div/img').get_attribute('src')print(ab)

獲取到src之后我們就可以進(jìn)行下一步操作
Python,Python爬蟲,Python requests wget urllib3,Python 圖片下載,Python PDF文件下載

1.使用requests下載文件

下載圖片

首先導(dǎo)入requests，把定位找到的圖片地址傳入dowlimg，寫入文件，即可將下載好的文件存入本地

import requests
dowlimg = requests.get(ab)open('imgtest.jpeg','wb').write(dowlimg.content)driver.close()

Python,Python爬蟲,Python requests wget urllib3,Python 圖片下載,Python PDF文件下載

下載PDF文件

下載PDF文件也是一個道理只要你能夠通過selenium定位獲取到地址，傳入給request就能夠把文件給下載下來

import requests
url = 'https://pdf.dfcfw.com/pdf/H2_AN202302051582783380_1.pdf?1675614279000.pdf'dowlimg = requests.get(url)open('PDF.pdf','wb').write(dowlimg.content)

2.使用wget下載文件

下載圖片

使用wget下載有個麻煩點(diǎn)就是有些網(wǎng)站設(shè)置了反爬蟲時會出現(xiàn)403拒絕的情況，嘗試用了用戶代理那些都失敗，只能用于下載沒有反爬蟲的網(wǎng)站圖片

import wgeturl = "https://img-blog.csdnimg.cn/f6c50979184e417babde47d8f8fbd58e.png#pic_center"wget.download(url,'image.jpeg')

Python,Python爬蟲,Python requests wget urllib3,Python 圖片下載,Python PDF文件下載

下載PDF文件

import wgeturl = "https://pdf.dfcfw.com/pdf/H2_AN202302051582783380_1.pdf?1675614279000.pdf"wget.download(url,'pdf1.pdf')

Python,Python爬蟲,Python requests wget urllib3,Python 圖片下載,Python PDF文件下載

3.使用urllib3下載文件

下載圖片

import urllib
url = "https://img-blog.csdnimg.cn/f6c50979184e417babde47d8f8fbd58e.png#pic_center"urllib.request.urlretrieve(url, 'img1.jpeg')

下載PDF文件

import urllib
url = "https://pdf.dfcfw.com/pdf/H2_AN202302051582783380_1.pdf?1675614279000.pdf"urllib.request.urlretrieve(url, 'img1.jpeg')

Python,Python爬蟲,Python requests wget urllib3,Python 圖片下載,Python PDF文件下載文章來源地址http://www.zghlxwxcb.cn/news/detail-489011.html

到了這里，關(guān)于Python爬蟲教程：使用requests、wget和urllib3下載圖片和PDF文件的文章就介紹完了。如果您還想了解更多內(nèi)容，請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

Python Python爬蟲 Python requests wget urllib3 Python 圖片下載 Python PDF文件下載

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

【已解決】requests 和 selenium對 Urllib3版本沖突
requests對urllib3要求版本低于1.23，而selenium要求urllib3高于1.26，直接用pip install requests安裝的版本是舊的（1.20），最新的為1.28,同時會把你新版本的urllib3刪掉，換成1.23，于是無限死循環(huán)。。解決辦法：下載最新版的requests 下載鏈接：https://pypi.org/project/requests/#files 隨后一番解壓
2024年02月11日
瀏覽(25)
【Python爬蟲】ImportError: urllib3 v2.0 only supports OpenSSL 1.1.1+, currently the ‘ssl‘ module is comp
目錄 1.問題描述： 2.問題分析： 3.問題解決： ImportError: urllib3 v2.0 only supports OpenSSL 1.1.1+, currently the \\\'ssl\\\' module is compiled with \\\'OpenSSL 1.0.2k-fips? 26 Jan 2017\\\'. See: https://github.com/urllib3/urllib3/issues/2168 提示這個錯誤表明 urllib3 版本 2.0 要求使用 OpenSSL 1.1.1 或更高版本，但當(dāng)前的 Python
2024年02月05日
瀏覽(22)
關(guān)于pycharm在安裝requests模塊時出現(xiàn)：urllib3 v2.0 only supports OpenSSL 1.1.1+
原因：是由于urllib3模塊的版本過高導(dǎo)致的解決辦法： 1.file-setting-Project:project-python interpreter 2.點(diǎn)擊右側(cè)+號，在搜索框中輸入urllib3 3.在左側(cè)選中urllib3后，在右下方的specify verison下拉框中選擇1.26版本 4.左下角選擇install package即可 ? ? ? ?
2024年02月12日
瀏覽(24)
【python】（十九）python常用第三方庫——urllib3
官方文檔：https://urllib3.readthedocs.io/en/stable/ Urllib3是一個功能強(qiáng)大，條理清晰，用于HTTP客戶端的Python庫，許多Python的原生系統(tǒng)已經(jīng)開始使用urllib3。Urllib3提供了很多python標(biāo)準(zhǔn)庫里所沒有的重要特性：線程安全連接池管理客戶端 SSL/TLS 驗(yàn)證支持 HTTP 和 SOCKS 代理 …… 通過 pip
2024年02月13日
瀏覽(122)
python 模塊urllib3 HTTP 客戶端庫
官網(wǎng)文檔地址：https://urllib3.readthedocs.io/en/stable/reference/index.html 一、安裝二、基本使用三、urllib3.request() 發(fā)送請求四、urllib3.PoolManager() 創(chuàng)建和管理連接池，以便在發(fā)送多個 HTTP 請求時重用連接 http.request(method,url,body,fields,headers) 發(fā)送請求 method（字符串）：指定請求的 HTTP 方
2024年02月11日
瀏覽(20)
Python爬蟲|基礎(chǔ)知識點(diǎn)詳細(xì)匯總(requests、urllib、re、bs4、xpath、PyQuery、jsonpath、多線程、協(xié)程、數(shù)據(jù)保存、selenium)
1. 請求數(shù)據(jù) ① requests (1) 基本使用參數(shù) 對響應(yīng)內(nèi)容的操作 (2) Requests進(jìn)階:使用Session 為什么要用 Session? Session代表服務(wù)器與瀏覽器的一次會話過程，Session對象存儲了特定用戶會話所需的信息例如:一定時間內(nèi)記錄賬號密碼 (自動登錄) 可以加快 requests請求速度需要客戶端登錄的
2023年04月08日
瀏覽(31)
5.爬蟲必備基礎(chǔ)知識(urllib&requests)一
我們?yōu)g覽器在輸入完網(wǎng)址到我們看到網(wǎng)頁的整體內(nèi)容, 這個過程中究竟發(fā)生了些什么? 我們看一下一個瀏覽器請求的全過程接下來就是一個比較重要的事情了. 所有的數(shù)據(jù)都在頁面源代碼里么? 非也~ 這里要介紹一個新的概念那就是頁面渲染數(shù)據(jù)的過程, 我們常見的頁面渲染過
2024年04月25日
瀏覽(22)
【Python 錯誤解決】 ---- pip._vendor.urllib3.exceptions.ReadTimeoutError: HTTPSConnectionPool
1. 錯誤代碼 2. 報(bào)錯圖片 3. 報(bào)錯分析大概率是網(wǎng)絡(luò)問題，pip 提供的網(wǎng)速不足以支撐 backgroundremover 安裝。 4. 解決辦法 5. 解決結(jié)果
2024年02月06日
瀏覽(22)
成功解決wget下載報(bào)錯 : wget HTTP request sent, awaiting response... 403 Forbidden
–2023-07-15 02:32:57-- https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-2023.03-Linux-x86_64.sh Resolving mirrors.tuna.tsinghua.edu.cn (mirrors.tuna.tsinghua.edu.cn)… 2402:f000:1:400::2, 101.6.15.130 Connecting to mirrors.tuna.tsinghua.edu.cn (mirrors.tuna.tsinghua.edu.cn)|2402:f000:1:400::2|:443… connected. HTTP request sent, awaiting r
2024年02月16日
瀏覽(21)
解決python urllib3 v2.0 only supports OpenSSL 1.1.1+, currently
上面語句不能執(zhí)行的話嘗試下面這一條還是不行嘗試升級openssl
2024年02月11日
瀏覽(25)

<track id="zasbu"><pre id="zasbu"></pre></track>