国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Python爬蟲：實現(xiàn)爬取、下載網(wǎng)站數(shù)據(jù)的幾種方法

2年前作者：小小程序員ol分類：Toy博客閱讀(96)違法舉報

這篇具有很好參考價值的文章主要介紹了Python爬蟲：實現(xiàn)爬取、下載網(wǎng)站數(shù)據(jù)的幾種方法。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

使用腳本進行下載的需求很常見，可以是常規(guī)文件、web頁面、Amazon S3和其他資源。Python 提供了很多模塊從 web 下載文件。下面介紹

一、使用 requests

requests 模塊是模仿網(wǎng)頁請求的形式從一個URL下載文件

示例代碼：

import requests

url = 'xxxxxxxx'  # 目標下載鏈接
r = requests.get(url)  # 發(fā)送請求
# 保存
with open ('r.txt', 'rb') as f:
    f.write(r.content)
    f.close

二、使用 wget

安裝 wget 庫

pip install wget

示例代碼

import wget

url = 'https://pic.cnblogs.com/avatar/1197773/20170712160655.png'  # 目標路由，下載的資源是圖片
path = 'D:/x.png'  # 保存的路徑
wget.download(url, path)  # 下載

三、下載重定向資源

有些 URL 會被重定向到另一個 URL，后者是真正的下載鏈接。很多軟件的下載其實都是這樣的形式。URL看起來如下

https://readthedocs.org/projects/python-guide/downloads/pdf/latest

重定向的 URL 也可以用 requests 庫進行下載，只需加一個參數(shù)就可以

import requests

url = 'https://readthedocs.org/projects/python-guide/downloads/pdf/latest'

# allow_redirect參數(shù)True表示允許重定向
r = requests.get(url, allow_redirect=True)
with open('r.txt', 'wb') as f:
    f.write(r)
    f.close()

四、大文件分塊下載

有些文件非常的大，如果我們直接下載，可能會因為事件原因或者網(wǎng)絡(luò)原因造成下載失敗，這時候我可以使用分塊下載的形式進行下載。

requests 支持分塊下載，只需要將 stream 設(shè)為True 即可

import requests

url = 'https://readthedocs.org/projects/python-guide/downloads/pdf/latest'

# stream參數(shù)True表示分塊下載
r = requests.get(url, stream=True)
with open('r.txt', 'wb') as f:
    for ch in r:
        f.write(r)
    f.close()

五、并行下載

多線程、多進程并發(fā)下載，大大提高下載速度

import requests
from multiprocessing.poll import Pool

# 定義下載函數(shù)
def url_response(url):
    path, url = url
    r = requests.get(url, stream=True)
    with open(path, 'wb') as f:
        for ch in r:
            f.write(ch)
        f.close()

urls = ['aaa', 'bbb', 'ccc']  # 假設(shè)有好多個下載鏈接

# 排隊下載的方式
for x in urls:
    url_response(x)

# 并行下載的方式
ThreadPool(3).imap_unordered(url_response, urls)

六、下載中加入進度條

使用進度條更直觀的查看下載進度，這里使用 clint 模塊實現(xiàn)進度條功能

pip install clint

下載

import requests
from clint.textui import progess

url = 'xxxxxxxxxxx'
r = requests.get(url, stream=True)
with open('x.txt', 'wb') as f
    total_length = int(r.headers.get('content-length'))
    for ch in progress.bar(r.iter_content(chunk_size=2391975, expected)size=(total_length/1024)+1)):
        if ch:
            f.write(ch)
    f.close()

七、使用 urllib 模塊下載

urllib庫是Python的標準庫，因此不需要安裝它。

下載代碼

urllib.request.urlretrieve(URL, PATH)

八、通過代理下載

因為一些眾所周知的原因我們下載國外的資源會非常的慢，這時候可以使用代理的方式進行下載

requests 模塊使用代理

import requests

# 定義代理，假設(shè)本機上有個梯子的服務(wù)，代理端口是2258
proxy = {'http': 'http://127.0.0.1:2258'} 

url = 'xxxxxx'
r = requests.get(url, proxies=proxy )
.......

urllib 模塊使用代理

import urllib.request
#Python小白學習交流群：153708845
url = 'xxxxxxxxxx'
proxy = urllib.request.ProxyHandler({'http': '127.0.0.1'})
open_proxy = urllib.request.build_opener(proxy )  # 打開代理
urllib.request.urlretrieve(url)

九、使用 urllib3

urllib3 是 urllib 模塊的改進版本。使用pip下載并安裝文章來源地址http://www.zghlxwxcb.cn/news/detail-750477.html

pip install urllib3

到了這里，關(guān)于Python爬蟲：實現(xiàn)爬取、下載網(wǎng)站數(shù)據(jù)的幾種方法的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔相關(guān)法律責任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費用

Python爬蟲入門：使用selenium庫，webdriver庫模擬瀏覽器爬蟲，模擬用戶爬蟲，爬取網(wǎng)站內(nèi)文章數(shù)據(jù)，循環(huán)爬取網(wǎng)站全部數(shù)據(jù)。
*嚴正聲明：本文僅限于技術(shù)討論與分享，嚴禁用于非法途徑。目錄準備工具：思路：具體操作：調(diào)用需要的庫：啟動瀏覽器驅(qū)動：代碼主體： ?完整代碼（解析注釋）： Python環(huán)境；安裝selenium庫； Python編輯器；待爬取的網(wǎng)站；安裝好的瀏覽器；與瀏覽器版本相對應(yīng)的
2023年04月24日
瀏覽(103)
用Python寫了一個下載網(wǎng)站所有內(nèi)容的軟件，可見即可下
前言嗨嘍~大家好呀，這里是魔王吶 ? ~! 今天我們分享一個用Python寫下載視頻+彈幕+評論的代碼。順便把這些寫成GUI，把這些功能放到一起讓朋友用起來更方便~ 環(huán)境介紹: python 3.8 pycharm 2022專業(yè)版免費使用教程文末名片獲取 python資料、源碼、教程福利皆: 點擊此處跳轉(zhuǎn)文末
2024年02月09日
瀏覽(20)
為了防止這個網(wǎng)站被各位爬崩，我連夜用Python下載了上萬張壁紙（附網(wǎng)站JS逆向解密）
每當一個網(wǎng)站崩潰，在座的各位都有一定的責任。當一個爬蟲教程不火的時候還好，火起來了，就到了考驗網(wǎng)站服務(wù)器的時候了，上一次茶杯狐就是這樣，還好人家頑強… ? 好了話不多說，直接開始。首先就是必備的軟件和模塊環(huán)境使用 ? 模塊使用 ? 前兩個是第三方模塊
2024年02月07日
瀏覽(23)
nginx網(wǎng)站服務(wù)（下載，配置，命令，實現(xiàn)訪問狀態(tài)統(tǒng)計，訪問控制，域名 IP端口訪問，身份驗證）
目錄概念 Nginx的優(yōu)勢和特點：下載配置nginx（兩種方式編譯和yum）編譯安裝，安裝依賴 ?創(chuàng)建運行用戶、組解壓nginx壓縮包配置Nginx ?編譯安裝修改權(quán)限讓系統(tǒng)識別nginx的操作命令配置 nginx命令 nginx的配置文件全局配置模塊 location的配置 1. root 指令： 2. alias 指令：實現(xiàn)
2024年02月19日
瀏覽(26)
【視頻目標檢測數(shù)據(jù)集收集】B站、YouTube等各大網(wǎng)站視頻下載工具：Annie(現(xiàn)更名為lux)的下載與安裝教程
注：現(xiàn) Annie已經(jīng)改名為 lux。當做視頻目標檢測時，我們常常需要非常多的視頻作為數(shù)據(jù)集。今天推薦一款非常方便好用的視頻下載工具 Annie(現(xiàn)更名為lux) 。 Github 網(wǎng)址：https://github.com/iawia002/annie Github 上對于Windows電腦推薦了 2 種安裝方式。這里為了方便我選擇了 Scoop 。點擊
2024年02月03日
瀏覽(19)
【Python設(shè)計】基于Python Flask的上海美食信息與可視化宣傳網(wǎng)站項目-附下載方式以及往屆優(yōu)秀論文，項目其他均為抄襲
隨著大數(shù)據(jù)和人工智能技術(shù)的迅速發(fā)展，我們設(shè)計并開發(fā)了一款基于大數(shù)據(jù)的上海美食系統(tǒng)。該系統(tǒng)旨在為用戶提供全面而個性化的美食服務(wù)體驗。在這個時代背景下，人們對美食的需求不僅停留在簡單的滿足口腹之欲，更加注重個性化、健康、便捷的消費體驗。系統(tǒng)的核心
2024年02月11日
瀏覽(21)
如何快速查找下載外文文獻，哪個文獻下載網(wǎng)站好用
??如何高效獲取到自己需要的外文文獻，最好的辦法就是去文獻來源數(shù)據(jù)庫中查找，你需要的文獻來源數(shù)據(jù)庫有可能是Elsevier（sciencedirect）、也可能是Wiley Online Library、也有可能是IEEE等等，外文數(shù)據(jù)庫機構(gòu)太多了。這些外文文獻機構(gòu)大部分都需要賬號和權(quán)限才可以使用，有
2023年04月22日
瀏覽(31)
【爬蟲】python爬蟲爬取網(wǎng)站頁面（基礎(chǔ)講解）
??博__主??：米碼收割機 ??技__能??：C++/Python語言 ??公眾號??：測試開發(fā)自動化【獲取源碼+商業(yè)合作】 ??榮__譽??：阿里云博客專家博主、51CTO技術(shù)博主 ??專__注??：專注主流機器人、人工智能等相關(guān)領(lǐng)域的開發(fā)、測試技術(shù)。 1. 導入必要的庫 requests 庫用于發(fā)送HTTP請
2024年02月08日
瀏覽(29)
代碼下載網(wǎng)站
背景：俗話說“工欲善其事必先利其器”，作為一個具有多年經(jīng)驗的計算機工程師，應(yīng)該善于總結(jié)自己的經(jīng)驗才可以，這里記錄自己下代碼經(jīng)常用到的網(wǎng)站。說明：我們在做學術(shù)研究或者項目開發(fā)的時候，最需要的就是參考代碼了，有時候，找到合適的參考代碼，會讓我們
2024年02月10日
瀏覽(26)
【Python畢設(shè)|課設(shè)】基于Python Flask的上海美食信息與可視化宣傳網(wǎng)站項目-文末附下載方式以及往屆優(yōu)秀論文，項目其他均為抄襲
隨著大數(shù)據(jù)和人工智能技術(shù)的迅速發(fā)展，我們設(shè)計并開發(fā)了一款基于大數(shù)據(jù)的上海美食系統(tǒng)。該系統(tǒng)旨在為用戶提供全面而個性化的美食服務(wù)體驗。在這個時代背景下，人們對美食的需求不僅停留在簡單的滿足口腹之欲，更加注重個性化、健康、便捷的消費體驗。系統(tǒng)的核心
2024年02月11日
瀏覽(23)

<thead id="17nc5"></thead>

<th id="17nc5"><input id="17nc5"></input></th>

<del id="17nc5"><pre id="17nc5"></pre></del>