国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

python 爬蟲熱身篇使用 requests 庫通過 HTTP 讀取網(wǎng)絡(luò)數(shù)據(jù)，使用 pandas 讀取網(wǎng)頁上的表格，使用 Selenium 模擬瀏覽器操作

2年前作者：佛系的老肖分類：Toy博客閱讀(98)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了python 爬蟲熱身篇使用 requests 庫通過 HTTP 讀取網(wǎng)絡(luò)數(shù)據(jù)，使用 pandas 讀取網(wǎng)頁上的表格，使用 Selenium 模擬瀏覽器操作。希望對大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

引言

在過去，收集數(shù)據(jù)是一項(xiàng)繁瑣的工作，有時(shí)非常昂貴。機(jī)器學(xué)習(xí)項(xiàng)目不能沒有數(shù)據(jù)。幸運(yùn)的是，我們現(xiàn)在在網(wǎng)絡(luò)上有很多數(shù)據(jù)可供我們使用。我們可以從 Web 復(fù)制數(shù)據(jù)來創(chuàng)建數(shù)據(jù)集。我們可以手動下載文件并將其保存到磁盤。但是，我們可以通過自動化數(shù)據(jù)收集來更有效地做到這一點(diǎn)。Python中有幾種工具可以幫助自動化。

完成本教程后，您將學(xué)習(xí)：

如何使用 requests 庫通過 HTTP 讀取網(wǎng)絡(luò)數(shù)據(jù)
如何使用 pandas 讀取網(wǎng)頁上的表格
如何使用 Selenium 模擬瀏覽器操作

概述

本教程分為三個(gè)部分;它們是：

使用 requests 庫
使用 panda 在網(wǎng)絡(luò)上閱讀表格
用 selenium 閱讀動態(tài)內(nèi)容

使用requests庫

當(dāng)我們談?wù)摼帉慞ython程序從Web上讀取時(shí)，不可避免的是我們無法避免requests庫。您需要安裝它（以及我們稍后將介紹的BeautifulSoup和lxml）：

pip install requests beautifulsoup4 lxml

它為您提供了一個(gè)界面，可讓您輕松與網(wǎng)絡(luò)進(jìn)行交互。

非常簡單的用例是從URL讀取網(wǎng)頁：

import requests

# Lat-Lon of New York
URL = "https://weather.com/weather/today/l/40.75,-73.98"
resp = requests.get(URL)
print(resp.status_code)
print(resp.text)

運(yùn)行結(jié)果：

python 爬蟲熱身篇使用 requests 庫通過 HTTP 讀取網(wǎng)絡(luò)數(shù)據(jù)，使用 pandas 讀取網(wǎng)頁上的表格，使用 Selenium 模擬瀏覽器操作

如果您熟悉 HTTP，您可能還記得狀態(tài)代碼 200 表示請求已成功完成。然后我們可以閱讀響應(yīng)。在上面，我們閱讀文本響應(yīng)并獲取網(wǎng)頁的HTML。如果它是CSV或其他一些文本數(shù)據(jù)，我們可以在響應(yīng)對象的屬性中獲取它們。例如text，這就是我們從美聯(lián)儲經(jīng)濟(jì)學(xué)數(shù)據(jù)中讀取CSV的方法：

以下例子會用到pandas 模塊：

安裝： pip install pandas -i https://pypi.tuna.tsinghua.edu.cn/simple

import io
import pandas as pd
import requests

URL = "https://fred.stlouisfed.org/graph/fredgraph.csv?id=T10YIE&cosd=2017-04-14&coed=2022-04-14"
resp = requests.get(URL)
if resp.status_code == 200:
   csvtext = resp.text
   csvbuffer = io.StringIO(csvtext)
   df = pd.read_csv(csvbuffer)
   print(df)

運(yùn)行結(jié)果：

python 爬蟲熱身篇使用 requests 庫通過 HTTP 讀取網(wǎng)絡(luò)數(shù)據(jù)，使用 pandas 讀取網(wǎng)頁上的表格，使用 Selenium 模擬瀏覽器操作

如果數(shù)據(jù)是JSON的形式，我們可以將其讀取為文本，甚至可以為您解碼。例如，以下是以JSON格式從GitHub中提取一些數(shù)據(jù)并將其轉(zhuǎn)換為Python字典：

import requests

URL = "https://api.github.com/users/jbrownlee"
resp = requests.get(URL)
if resp.status_code == 200:
    data = resp.json()
    print(data)

運(yùn)行結(jié)果：

python 爬蟲熱身篇使用 requests 庫通過 HTTP 讀取網(wǎng)絡(luò)數(shù)據(jù)，使用 pandas 讀取網(wǎng)頁上的表格，使用 Selenium 模擬瀏覽器操作

但是，如果 URL 為您提供了一些二進(jìn)制數(shù)據(jù)，例如 ZIP 文件或 JPEG 圖像，則需要在屬性中獲取它們，因?yàn)檫@將是二進(jìn)制數(shù)據(jù)。例如，這就是我們下載圖像（維基百科的標(biāo)志）的方式：

import requests

URL = "https://en.wikipedia.org/static/images/project-logos/enwiki.png"
wikilogo = requests.get(URL)
if wikilogo.status_code == 200:
    with open("enwiki.png", "wb") as fp:
        fp.write(wikilogo.content)

運(yùn)行結(jié)果：

python 爬蟲熱身篇使用 requests 庫通過 HTTP 讀取網(wǎng)絡(luò)數(shù)據(jù)，使用 pandas 讀取網(wǎng)頁上的表格，使用 Selenium 模擬瀏覽器操作

鑒于我們已經(jīng)獲得了網(wǎng)頁，我們應(yīng)該如何提取數(shù)據(jù)？這超出了requests所能提供給我們的范圍，但我們可以使用不同的library 來提供幫助。有兩種方法可以做到這一點(diǎn)，這取決于我們想要如何指定數(shù)據(jù)。

第一種方法是將 HTML 視為一種 XML 文檔，并使用 XPath 語言提取元素。在這種情況下，我們可以利用該庫首先創(chuàng)建一個(gè)文檔對象模型（DOM），然后通過XPath進(jìn)行搜索：

import requests
from lxml import etree



URL = "https://weather.com/weather/today/l/40.75,-73.98"
resp = requests.get(URL)

# 從HTML文本創(chuàng)建DOM
dom = etree.HTML(resp.text)
# 搜索溫度元素并獲得內(nèi)容
elements = dom.xpath("http://span[@data-testid='TemperatureValue' and contains(@class,'CurrentConditions')]")
print(elements[0].text)

XPath 是一個(gè)字符串，它指定如何查找元素。lxml 對象提供了一個(gè)函數(shù)，用于在 DOM 中搜索與 XPath 字符串匹配的元素，這些元素可以是多個(gè)匹配項(xiàng)。上面的 XPath 意味著在具有標(biāo)記和屬性與 “” 匹配且以 “” 開頭的任何位置查找 HTML 元素。我們可以通過檢查HTML源代碼從瀏覽器的開發(fā)人員工具（例如，下面的Chrome屏幕截圖）中學(xué)習(xí)這一點(diǎn)。xpath()``<span>``data-testid``TemperatureValue``class``CurrentConditions

python 爬蟲熱身篇使用 requests 庫通過 HTTP 讀取網(wǎng)絡(luò)數(shù)據(jù)，使用 pandas 讀取網(wǎng)頁上的表格，使用 Selenium 模擬瀏覽器操作

這個(gè)例子是找到紐約市的溫度，由我們從這個(gè)網(wǎng)頁獲得的這個(gè)特定元素提供。我們知道與 XPath 匹配的第一個(gè)元素是我們需要的，我們可以讀取標(biāo)記內(nèi)的文本。<span>

另一種方法是在HTML文檔上使用CSS選擇器，我們可以利用BeautifulSoup庫：

import requests
from bs4 import BeautifulSoup



URL = "https://weather.com/weather/today/l/40.75,-73.98"
resp = requests.get(URL)

soup = BeautifulSoup(resp.text, "lxml")
elements = soup.select('span[data-testid="TemperatureValue"][class^="CurrentConditions"]')
print(elements[0].text)

運(yùn)行結(jié)果：

python 爬蟲熱身篇使用 requests 庫通過 HTTP 讀取網(wǎng)絡(luò)數(shù)據(jù)，使用 pandas 讀取網(wǎng)頁上的表格，使用 Selenium 模擬瀏覽器操作

在上面，我們首先將HTML文本傳遞給BeautifulSoup。BeautifulSoup支持各種HTML解析器，每個(gè)解析器具有不同的功能。在上面，我們使用庫作為BeautifulSoup推薦的解析器（它通常也是最快的）。CSS選擇器是一種不同的迷你語言，與XPath相比有優(yōu)點(diǎn)和缺點(diǎn)。上面的選擇器與我們在上一個(gè)示例中使用的 XPath 相同。因此，我們可以從第一個(gè)匹配的元素中獲得相同的溫度。

以下是根據(jù)網(wǎng)絡(luò)上的實(shí)時(shí)信息打印紐約當(dāng)前溫度的完整代碼：

import requests
from bs4 import BeautifulSoup
from lxml import etree


URL = "https://weather.com/weather/today/l/40.75,-73.98"
resp = requests.get(URL)

if resp.status_code == 200:
    # Using lxml
    dom = etree.HTML(resp.text)
    elements = dom.xpath("http://span[@data-testid='TemperatureValue' and contains(@class,'CurrentConditions')]")
    print(elements[0].text)

    # Using BeautifulSoup
    soup = BeautifulSoup(resp.text, "lxml")
    elements = soup.select('span[data-testid="TemperatureValue"][class^="CurrentConditions"]')
    print(elements[0].text)

可以想象，您可以通過定期運(yùn)行此腳本來收集溫度的時(shí)間序列。同樣，我們可以從各種網(wǎng)站自動收集數(shù)據(jù)。這就是我們?yōu)闄C(jī)器學(xué)習(xí)項(xiàng)目獲取數(shù)據(jù)的方法。

使用 panda 在網(wǎng)絡(luò)上閱讀表格

通常，網(wǎng)頁將使用表格來承載數(shù)據(jù)。如果頁面足夠簡單，我們甚至可以跳過檢查它以找出XPath或CSS選擇器，并使用pandas一次性獲取頁面上的所有表格。它很簡單，可以在一行中完成：

import pandas as pd

tables = pd.read_html("https://www.federalreserve.gov/releases/h10/current/")
print(tables)

[                               Instruments 2022Apr7 2022Apr8 2022Apr11 2022Apr12 2022Apr13
0          Federal funds (effective) 1 2 3     0.33     0.33      0.33      0.33      0.33
1                 Commercial Paper 3 4 5 6      NaN      NaN       NaN       NaN       NaN
2                             Nonfinancial      NaN      NaN       NaN       NaN       NaN
3                                  1-month     0.30     0.34      0.36      0.39      0.39
4                                  2-month     n.a.     0.48      n.a.      n.a.      n.a.
5                                  3-month     n.a.     n.a.      n.a.      0.78      0.78
6                                Financial      NaN      NaN       NaN       NaN       NaN
7                                  1-month     0.49     0.45      0.46      0.39      0.46
8                                  2-month     n.a.     n.a.      0.60      0.71      n.a.
9                                  3-month     0.85     0.81      0.75      n.a.      0.86
10                   Bank prime loan 2 3 7     3.50     3.50      3.50      3.50      3.50
11      Discount window primary credit 2 8     0.50     0.50      0.50      0.50      0.50
12              U.S. government securities      NaN      NaN       NaN       NaN       NaN
13   Treasury bills (secondary market) 3 4      NaN      NaN       NaN       NaN       NaN
14                                  4-week     0.21     0.20      0.21      0.19      0.23
15                                 3-month     0.68     0.69      0.78      0.74      0.75
16                                 6-month     1.12     1.16      1.22      1.18      1.17
17                                  1-year     1.69     1.72      1.75      1.67      1.67
18            Treasury constant maturities      NaN      NaN       NaN       NaN       NaN
19                               Nominal 9      NaN      NaN       NaN       NaN       NaN
20                                 1-month     0.21     0.20      0.22      0.21      0.26
21                                 3-month     0.68     0.70      0.77      0.74      0.75
22                                 6-month     1.15     1.19      1.23      1.20      1.20
23                                  1-year     1.78     1.81      1.85      1.77      1.78
24                                  2-year     2.47     2.53      2.50      2.39      2.37
25                                  3-year     2.66     2.73      2.73      2.58      2.57
26                                  5-year     2.70     2.76      2.79      2.66      2.66
27                                  7-year     2.73     2.79      2.84      2.73      2.71
28                                 10-year     2.66     2.72      2.79      2.72      2.70
29                                 20-year     2.87     2.94      3.02      2.99      2.97
30                                 30-year     2.69     2.76      2.84      2.82      2.81
31                    Inflation indexed 10      NaN      NaN       NaN       NaN       NaN
32                                  5-year    -0.56    -0.57     -0.58     -0.65     -0.59
33                                  7-year    -0.34    -0.33     -0.32     -0.36     -0.31
34                                 10-year    -0.16    -0.15     -0.12     -0.14     -0.10
35                                 20-year     0.09     0.11      0.15      0.15      0.18
36                                 30-year     0.21     0.23      0.27      0.28      0.30
37  Inflation-indexed long-term average 11     0.23     0.26      0.30      0.30      0.33,

pandas 中的函數(shù)read_html()讀取 URL 并查找頁面上的所有表。每個(gè)表都轉(zhuǎn)換為 pandas DataFrame，然后在列表中返回所有表。在這個(gè)例子中，我們正在閱讀美聯(lián)儲的各種利率，而美聯(lián)儲恰好在這個(gè)頁面上只有一個(gè)表格。表列由 pandas 自動標(biāo)識。

很可能并非所有表格都是我們感興趣的。有時(shí)，網(wǎng)頁會使用表格作為格式化頁面的一種方式，但熊貓可能不夠聰明，無法分辨。因此，我們需要測試并挑選函數(shù)返回的結(jié)果。

用硒閱讀動態(tài)內(nèi)容

現(xiàn)代網(wǎng)頁的很大一部分充滿了JavaScript。這給了我們一個(gè)更奇特的體驗(yàn)，但成為一個(gè)障礙，用作提取數(shù)據(jù)的程序。一個(gè)例子是雅虎的主頁，如果我們只加載頁面并找到所有新聞標(biāo)題，那么在瀏覽器上看到的要少得多：

import requests

# Read Yahoo home page
from lxml import etree

URL = "https://www.yahoo.com/"
resp = requests.get(URL)
dom = etree.HTML(resp.text)

# Print news headlines
elements = dom.xpath("http://h3/a[u[@class='StretchedBox']]")
for elem in elements:
    print(etree.tostring(elem, method="text", encoding="unicode"))

運(yùn)行結(jié)果:

python 爬蟲熱身篇使用 requests 庫通過 HTTP 讀取網(wǎng)絡(luò)數(shù)據(jù)，使用 pandas 讀取網(wǎng)頁上的表格，使用 Selenium 模擬瀏覽器操作

這是因?yàn)橄襁@樣的網(wǎng)頁依靠JavaScript來填充內(nèi)容。著名的Web框架，如AngularJS或React，是這一類別的幕后推手。Python 庫，比如requests ，不理解 JavaScript。因此，您將看到不同的結(jié)果。如果你想從網(wǎng)上獲取的數(shù)據(jù)就是其中之一，你可以研究JavaScript是如何被調(diào)用的，并在你的程序中模仿瀏覽器的行為。但這可能太乏味了，無法使其正常工作。

另一種方法是要求真正的瀏覽器讀取網(wǎng)頁，而不是使用requests。這就是selenium可以做的。在使用它之前，我們需要安裝庫：

pip install selenium

但Selenium只是一個(gè)控制瀏覽器的框架。您需要在計(jì)算機(jī)上安裝瀏覽器以及將Selenium連接到瀏覽器的驅(qū)動程序。如果您打算使用Chrome，則還需要下載并安裝ChromeDriver。您需要將驅(qū)動程序chromedriver放在可執(zhí)行路徑中，以便Selenium可以像普通命令一樣調(diào)用它。

同樣，如果你使用的是Firefox，你需要GeckoDriver。有關(guān)設(shè)置Selenium的更多詳細(xì)信息，請參閱其文檔。

之后，您可以使用 Python 腳本來控制瀏覽器行為。例如：

import time
from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.common.by import By

# Launch Chrome browser in headless mode
options = webdriver.ChromeOptions()
options.add_argument("headless")
browser = webdriver.Chrome(options=options)

# Load web page
browser.get("https://www.yahoo.com")


# Network transport takes time. Wait until the page is fully loaded
def is_ready(browser):
    return browser.execute_script(r"""
        return document.readyState === 'complete'
    """)


WebDriverWait(browser, 30).until(is_ready)

# Scroll to bottom of the page to trigger JavaScript action
browser.execute_script("window.scrollTo(0, document.body.scrollHeight);")
time.sleep(1)
WebDriverWait(browser, 30).until(is_ready)

# Search for news headlines and print
elements = browser.find_elements(By.XPATH, "http://h3/a[u[@class='StretchedBox']]")
for elem in elements:
    print(elem.text)

# Close the browser once finish
browser.close()

上述代碼的工作原理如下。我們首先以無外設(shè)模式啟動瀏覽器，這意味著我們要求Chrome啟動但不顯示在屏幕上。如果我們想遠(yuǎn)程運(yùn)行腳本，這很重要，因?yàn)榭赡軟]有任何GUI支持。請注意，每個(gè)瀏覽器的開發(fā)方式都不同，因此我們使用的選項(xiàng)語法特定于Chrome。如果我們使用Firefox，代碼將是這樣的：

options = webdriver.FirefoxOptions()
options.set_headless()
browser = webdriver.Firefox(firefox_options=options)

啟動瀏覽器后，我們會為其提供一個(gè)要加載的 URL。但是，由于網(wǎng)絡(luò)需要時(shí)間來交付頁面，并且瀏覽器需要時(shí)間來呈現(xiàn)它，因此我們應(yīng)該等到瀏覽器準(zhǔn)備就緒后再繼續(xù)下一個(gè)操作。我們檢測瀏覽器是否已經(jīng)使用 JavaScript 完成了渲染。我們讓Selenium為我們運(yùn)行JavaScript代碼，并使用該函數(shù)告訴我們結(jié)果。我們利用Selenium的工具運(yùn)行它，直到它成功或直到30秒超時(shí)。加載頁面時(shí)，我們滾動到頁面底部，以便可以觸發(fā)JavaScript以加載更多內(nèi)容。然后，我們無條件地等待一秒鐘，以確保瀏覽器觸發(fā)了JavaScript，然后等待頁面再次準(zhǔn)備就緒。之后，我們可以使用XPath（或者使用CSS選擇器）提取新聞標(biāo)題元素。由于瀏覽器是外部程序，因此我們負(fù)責(zé)在腳本中關(guān)閉它。

使用硒在幾個(gè)方面與使用庫不同。首先，您永遠(yuǎn)不會直接在Python代碼中擁有Web內(nèi)容。相反，您可以在需要時(shí)引用瀏覽器的內(nèi)容。因此，該函數(shù)返回的Web元素引用外部瀏覽器內(nèi)部的對象，因此在完成使用它們之前，我們不得關(guān)閉瀏覽器。其次，所有操作都應(yīng)基于瀏覽器交互而不是網(wǎng)絡(luò)請求。因此，您需要通過模擬鍵盤和鼠標(biāo)移動來控制瀏覽器。但作為回報(bào)，您擁有支持JavaScript的全功能瀏覽器。例如，您可以使用 JavaScript 檢查頁面上某個(gè)元素的大小和位置，只有在呈現(xiàn) HTML 元素后，您才會知道這些大小和位置。

Selenium框架提供了更多功能，我們可以在這里介紹。它功能強(qiáng)大，但是由于它連接到瀏覽器，因此使用它比庫的要求更高，并且速度要慢得多。通常，這是從網(wǎng)絡(luò)收集信息的最后手段。

延伸閱讀

Python中另一個(gè)著名的Web爬行庫，我們上面沒有介紹過，那就是Scrapy。這就像將requests庫與BeautifulSoup合并為一體一樣。網(wǎng)絡(luò)協(xié)議很復(fù)雜。有時(shí)我們需要管理網(wǎng)絡(luò) cookie 或使用 POST 方法為請求提供額外的數(shù)據(jù)。所有這些都可以通過具有不同函數(shù)或額外參數(shù)的請求庫來完成。以下是一些資源供您深入了解：文章來源地址http://www.zghlxwxcb.cn/news/detail-403807.html

到了這里，關(guān)于python 爬蟲熱身篇使用 requests 庫通過 HTTP 讀取網(wǎng)絡(luò)數(shù)據(jù)，使用 pandas 讀取網(wǎng)頁上的表格，使用 Selenium 模擬瀏覽器操作的文章就介紹完了。如果您還想了解更多內(nèi)容，請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

【頭歌】——數(shù)據(jù)分析與實(shí)踐-python-網(wǎng)絡(luò)爬蟲-Scrapy爬蟲基礎(chǔ)-網(wǎng)頁數(shù)據(jù)解析-requests 爬蟲-JSON基礎(chǔ)
第1關(guān) 爬取網(wǎng)頁的表格信息第2關(guān) 爬取表格中指定單元格的信息第3關(guān) 將單元格的信息保存到列表并排序第4關(guān) 爬取div標(biāo)簽的信息第5關(guān) 爬取單頁多個(gè)div標(biāo)簽的信息第6關(guān) 爬取多個(gè)網(wǎng)頁的多個(gè)div標(biāo)簽的信息第1關(guān) Scarpy安裝與項(xiàng)目創(chuàng)建第2關(guān) Scrapy核心原理第1關(guān) XPath解析網(wǎng)頁第
2024年01月22日
瀏覽(29)
python爬蟲03-request庫使用02
目錄 ??????1、requests庫使用的通用框架： 2、requests下載圖片 3、發(fā)送get / post 請求傳遞參數(shù)：? 4、requests庫下載視頻，并顯示進(jìn)度 5、requests.session進(jìn)行登錄保持 5.1 requests.session的作用和使用場景 5.2 使用方法基礎(chǔ)鏈接：?01-python-request庫使用01 1、requests庫使用的通用框
2024年01月21日
瀏覽(20)
python爬蟲02-requests庫使用01
目錄 1、requests庫簡介 2、requests庫-安裝 3、requests庫-使用 3.1 導(dǎo)入模塊 3.2 發(fā)送請求 3.3 requests庫常用方法 3.4 訪問控制參數(shù)kwargs ?4、請求返回對象 Response 5、requests訪問時(shí)的可能異常 1、requests庫簡介 requests是一個(gè)http的第三方請求庫，發(fā)送http請求，并獲取響應(yīng)結(jié)果； 2、requests庫
2024年01月20日
瀏覽(55)
python爬蟲request和BeautifulSoup使用
1.安裝request 2.引入庫 3.編寫代碼發(fā)送請求我們通過以下代碼可以打開豆瓣top250的網(wǎng)站但因?yàn)樵摼W(wǎng)站加入了反爬機(jī)制，所以我們需要在我們的請求報(bào)文的頭部加入U(xiǎn)ser-Agent的信息 User-Agent可以通過訪問網(wǎng)站時(shí)按f12查看獲取我們可以通過response的ok屬性判斷是否請求成功此時(shí)如果
2024年02月08日
瀏覽(21)
爬蟲requests使用代理報(bào)錯(cuò)Your proxy appears to only use HTTP and not HTTPS...
python版本：3.9.4 requests版本：2.28.2 詳細(xì)報(bào)錯(cuò)如下代理使用如下：使用如下代理設(shè)置，報(bào)錯(cuò)得到解決總結(jié)：由于之前使用的是python3.6.8版本，代理設(shè)置為’https’: \\\'https://xxxx’可以正常使用，而升級到python3.9.4則出現(xiàn)了上述問題。建議代理的使用統(tǒng)一為 ‘https’: ‘http://xxxx’
2024年02月15日
瀏覽(33)
Python網(wǎng)絡(luò)爬蟲之HTTP原理
寫爬蟲之前，我們還需要了解一些基礎(chǔ)知識，如HTTP原理、網(wǎng)頁的基礎(chǔ)知識、爬蟲的基本原理、Cookies的基本原理等。本文中，我們就對這些基礎(chǔ)知識做一個(gè)簡單的總結(jié)。 ??HTTP 基本原理在本文中，我們會詳細(xì)了解 HTTP的基本原理，了解在瀏覽器中敲入U(xiǎn)RL 到獲取網(wǎng)頁內(nèi)容之間發(fā)
2024年02月04日
瀏覽(18)
Python爬蟲基礎(chǔ)：使用requests模塊獲取網(wǎng)頁內(nèi)容
了解如何使用Python中的requests模塊進(jìn)行網(wǎng)頁內(nèi)容獲取，包括獲取網(wǎng)頁步驟、代碼實(shí)現(xiàn)、狀態(tài)碼查看、提取信息等。
2024年02月22日
瀏覽(27)
〖Python網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)①〗- HTTP原理
訂閱：新手可以訂閱我的其他專欄。免費(fèi)階段訂閱量1000+ ????????????????python項(xiàng)目實(shí)戰(zhàn) ???????????????? Python編程基礎(chǔ)教程系列（零基礎(chǔ)小白搬磚逆襲) 說明：本專欄持續(xù)更新中，目前專欄免費(fèi)訂閱，在轉(zhuǎn)為付費(fèi)專欄前訂閱本專欄的，可以免費(fèi)訂閱付費(fèi)專欄，
2023年04月09日
瀏覽(57)
利用Python進(jìn)行網(wǎng)絡(luò)爬蟲：Beautiful Soup和Requests的應(yīng)用【第131篇—Beautiful Soup】
在網(wǎng)絡(luò)數(shù)據(jù)變得日益豐富和重要的今天，網(wǎng)絡(luò)爬蟲成為了獲取和分析數(shù)據(jù)的重要工具之一。Python作為一種強(qiáng)大而靈活的編程語言，在網(wǎng)絡(luò)爬蟲領(lǐng)域也擁有廣泛的應(yīng)用。本文將介紹如何使用Python中的兩個(gè)流行庫Beautiful Soup和Requests來創(chuàng)建簡單而有效的網(wǎng)絡(luò)爬蟲，以便從網(wǎng)頁中提取
2024年03月17日
瀏覽(24)
Python 網(wǎng)絡(luò)爬蟲（二）：HTTP 基礎(chǔ)知識
《Python入門核心技術(shù)》專欄總目錄?點(diǎn)這里
2024年02月04日
瀏覽(25)