国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Python爬蟲教程:使用requests、wget和urllib3下載圖片和PDF文件

這篇具有很好參考價值的文章主要介紹了Python爬蟲教程:使用requests、wget和urllib3下載圖片和PDF文件。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

Python,Python爬蟲,Python requests wget urllib3,Python 圖片下載,Python PDF文件下載
之前的文章有關(guān)于更多操作方式詳細(xì)解答,本篇基于前面的知識點(diǎn)進(jìn)行操作,如果不了解可以先看之前的文章
Python爬蟲(1)一次性搞定Selenium(新版)8種find_element元素定位方式
Python爬蟲(2)-Selenium控制瀏覽器
Python爬蟲(3)-Selenium結(jié)合pywin32模擬鍵盤操作
Python爬蟲(4)-Selenium模擬鼠標(biāo)操作

Python爬蟲(5)-selenium用顯式等待、隱式等待、強(qiáng)制等待,解決反復(fù)爬取網(wǎng)頁時無法定位元素問題

selenium下載圖片和PDF的文件的方式有很多種,可以使用自帶的下載方式,也可以使用模擬鼠標(biāo)右鍵點(diǎn)擊的方式去儲存和下載不過這兩種方式都不太推薦使用,因?yàn)槲覀兊氖褂?/p>

selenium的目的主要是為了做一些爬蟲,爬蟲多數(shù)時候需要下載大量的圖片和文件,這里就需要使用其他的方式來進(jìn)行下載文件

下載前的工作,需要定位好圖片的地址
Python,Python爬蟲,Python requests wget urllib3,Python 圖片下載,Python PDF文件下載
完成定位之后我們需要獲取到圖片的地址也就是src

from selenium import webdriver
from selenium.webdriver import Chrome, ChromeOptions
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
opt = ChromeOptions()            # 創(chuàng)建Chrome參數(shù)對象opt.headless = False            # 把Chrome設(shè)置成可視化無界面模式,windows/Linux 皆可driver = Chrome(options=opt)driver.get('https://www.pexels.com/zh-cn/photo/931177/')ab = driver.find_element(By.XPATH,'//*[@id="__next"]/main/div/div[2]/div/div/img').get_attribute('src')print(ab)


獲取到src之后我們就可以進(jìn)行下一步操作
Python,Python爬蟲,Python requests wget urllib3,Python 圖片下載,Python PDF文件下載

1.使用requests下載文件

下載圖片

首先導(dǎo)入requests,把定位找到的圖片地址傳入dowlimg,寫入文件,即可將下載好的文件存入本地

import requests
dowlimg = requests.get(ab)open('imgtest.jpeg','wb').write(dowlimg.content)driver.close()


Python,Python爬蟲,Python requests wget urllib3,Python 圖片下載,Python PDF文件下載

下載PDF文件

下載PDF文件也是一個道理只要你能夠通過selenium定位獲取到地址,傳入給request就能夠把文件給下載下來

import requests
url = 'https://pdf.dfcfw.com/pdf/H2_AN202302051582783380_1.pdf?1675614279000.pdf'dowlimg = requests.get(url)open('PDF.pdf','wb').write(dowlimg.content)


2.使用wget下載文件

下載圖片

使用wget下載有個麻煩點(diǎn)就是有些網(wǎng)站設(shè)置了反爬蟲時會出現(xiàn)403拒絕的情況,嘗試用了用戶代理那些都失敗,只能用于下載沒有反爬蟲的網(wǎng)站圖片

import wgeturl = "https://img-blog.csdnimg.cn/f6c50979184e417babde47d8f8fbd58e.png#pic_center"wget.download(url,'image.jpeg')


Python,Python爬蟲,Python requests wget urllib3,Python 圖片下載,Python PDF文件下載

下載PDF文件

import wgeturl = "https://pdf.dfcfw.com/pdf/H2_AN202302051582783380_1.pdf?1675614279000.pdf"wget.download(url,'pdf1.pdf')


Python,Python爬蟲,Python requests wget urllib3,Python 圖片下載,Python PDF文件下載

3.使用urllib3下載文件

下載圖片

import urllib
url = "https://img-blog.csdnimg.cn/f6c50979184e417babde47d8f8fbd58e.png#pic_center"urllib.request.urlretrieve(url, 'img1.jpeg')


下載PDF文件

import urllib
url = "https://pdf.dfcfw.com/pdf/H2_AN202302051582783380_1.pdf?1675614279000.pdf"urllib.request.urlretrieve(url, 'img1.jpeg')


Python,Python爬蟲,Python requests wget urllib3,Python 圖片下載,Python PDF文件下載文章來源地址http://www.zghlxwxcb.cn/news/detail-489011.html

到了這里,關(guān)于Python爬蟲教程:使用requests、wget和urllib3下載圖片和PDF文件的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 【已解決】requests 和 selenium對 Urllib3版本沖突

    【已解決】requests 和 selenium對 Urllib3版本沖突

    requests對urllib3要求版本低于1.23,而selenium要求urllib3高于1.26,直接用pip install requests安裝的版本是舊的(1.20),最新的為1.28,同時會把你新版本的urllib3刪掉,換成1.23,于是無限死循環(huán)。。 解決辦法:下載最新版的requests 下載鏈接:https://pypi.org/project/requests/#files 隨后一番解壓

    2024年02月11日
    瀏覽(25)
  • 【Python爬蟲】ImportError: urllib3 v2.0 only supports OpenSSL 1.1.1+, currently the ‘ssl‘ module is comp

    目錄 1.問題描述: 2.問題分析: 3.問題解決: ImportError: urllib3 v2.0 only supports OpenSSL 1.1.1+, currently the \\\'ssl\\\' module is compiled with \\\'OpenSSL 1.0.2k-fips? 26 Jan 2017\\\'. See: https://github.com/urllib3/urllib3/issues/2168 提示 這個錯誤表明 urllib3 版本 2.0 要求使用 OpenSSL 1.1.1 或更高版本,但當(dāng)前的 Python

    2024年02月05日
    瀏覽(22)
  • 關(guān)于pycharm在安裝requests模塊時出現(xiàn):urllib3 v2.0 only supports OpenSSL 1.1.1+

    關(guān)于pycharm在安裝requests模塊時出現(xiàn):urllib3 v2.0 only supports OpenSSL 1.1.1+

    原因:是由于urllib3模塊的版本過高導(dǎo)致的 解決辦法: 1.file-setting-Project:project-python interpreter 2.點(diǎn)擊右側(cè)+號,在搜索框中輸入urllib3 3.在左側(cè)選中urllib3后,在右下方的specify verison下拉框中選擇1.26版本 4.左下角選擇install package即可 ? ? ? ?

    2024年02月12日
    瀏覽(24)
  • 【python】(十九)python常用第三方庫——urllib3

    官方文檔:https://urllib3.readthedocs.io/en/stable/ Urllib3是一個功能強(qiáng)大,條理清晰,用于HTTP客戶端的Python庫,許多Python的原生系統(tǒng)已經(jīng)開始使用urllib3。Urllib3提供了很多python標(biāo)準(zhǔn)庫里所沒有的重要特性: 線程安全 連接池管理 客戶端 SSL/TLS 驗(yàn)證 支持 HTTP 和 SOCKS 代理 …… 通過 pip

    2024年02月13日
    瀏覽(122)
  • python 模塊urllib3 HTTP 客戶端庫

    官網(wǎng)文檔地址:https://urllib3.readthedocs.io/en/stable/reference/index.html 一、安裝 二、基本使用 三、urllib3.request() 發(fā)送請求 四、urllib3.PoolManager() 創(chuàng)建和管理連接池,以便在發(fā)送多個 HTTP 請求時重用連接 http.request(method,url,body,fields,headers) 發(fā)送請求 method(字符串):指定請求的 HTTP 方

    2024年02月11日
    瀏覽(20)
  • Python爬蟲|基礎(chǔ)知識點(diǎn)詳細(xì)匯總(requests、urllib、re、bs4、xpath、PyQuery、jsonpath、多線程、協(xié)程、數(shù)據(jù)保存、selenium)

    1. 請求數(shù)據(jù) ① requests (1) 基本使用 參數(shù) 對響應(yīng)內(nèi)容的操作 (2) Requests進(jìn)階:使用Session 為什么要用 Session? Session代表服務(wù)器與瀏覽器的一次會話過程,Session對象存儲了特定用戶會話所需的信息 例如:一定時間內(nèi)記錄賬號密碼 (自動登錄) 可以加快 requests請求速度 需要客戶端登錄的

    2023年04月08日
    瀏覽(31)
  • 5.爬蟲必備基礎(chǔ)知識(urllib&requests)一

    5.爬蟲必備基礎(chǔ)知識(urllib&requests)一

    我們?yōu)g覽器在輸入完網(wǎng)址到我們看到網(wǎng)頁的整體內(nèi)容, 這個過程中究竟發(fā)生了些什么? 我們看一下一個瀏覽器請求的全過程 接下來就是一個比較重要的事情了. 所有的數(shù)據(jù)都在頁面源代碼里么? 非也~ 這里要介紹一個新的概念 那就是頁面渲染數(shù)據(jù)的過程, 我們常見的頁面渲染過

    2024年04月25日
    瀏覽(22)
  • 【Python 錯誤解決】 ---- pip._vendor.urllib3.exceptions.ReadTimeoutError: HTTPSConnectionPool

    【Python 錯誤解決】 ---- pip._vendor.urllib3.exceptions.ReadTimeoutError: HTTPSConnectionPool

    1. 錯誤代碼 2. 報(bào)錯圖片 3. 報(bào)錯分析 大概率是網(wǎng)絡(luò)問題,pip 提供的網(wǎng)速不足以支撐 backgroundremover 安裝。 4. 解決辦法 5. 解決結(jié)果

    2024年02月06日
    瀏覽(22)
  • 成功解決wget下載報(bào)錯 : wget HTTP request sent, awaiting response... 403 Forbidden

    成功解決wget下載報(bào)錯 : wget HTTP request sent, awaiting response... 403 Forbidden

    –2023-07-15 02:32:57-- https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-2023.03-Linux-x86_64.sh Resolving mirrors.tuna.tsinghua.edu.cn (mirrors.tuna.tsinghua.edu.cn)… 2402:f000:1:400::2, 101.6.15.130 Connecting to mirrors.tuna.tsinghua.edu.cn (mirrors.tuna.tsinghua.edu.cn)|2402:f000:1:400::2|:443… connected. HTTP request sent, awaiting r

    2024年02月16日
    瀏覽(21)
  • 解決python urllib3 v2.0 only supports OpenSSL 1.1.1+, currently

    上面語句不能執(zhí)行的話嘗試下面這一條 還是不行嘗試 升級openssl

    2024年02月11日
    瀏覽(25)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包