国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

python 爬蟲熱身篇 使用 requests 庫通過 HTTP 讀取網(wǎng)絡(luò)數(shù)據(jù),使用 pandas 讀取網(wǎng)頁上的表格,使用 Selenium 模擬瀏覽器操作

這篇具有很好參考價(jià)值的文章主要介紹了python 爬蟲熱身篇 使用 requests 庫通過 HTTP 讀取網(wǎng)絡(luò)數(shù)據(jù),使用 pandas 讀取網(wǎng)頁上的表格,使用 Selenium 模擬瀏覽器操作。希望對大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

引言

在過去,收集數(shù)據(jù)是一項(xiàng)繁瑣的工作,有時(shí)非常昂貴。機(jī)器學(xué)習(xí)項(xiàng)目不能沒有數(shù)據(jù)。幸運(yùn)的是,我們現(xiàn)在在網(wǎng)絡(luò)上有很多數(shù)據(jù)可供我們使用。我們可以從 Web 復(fù)制數(shù)據(jù)來創(chuàng)建數(shù)據(jù)集。我們可以手動下載文件并將其保存到磁盤。但是,我們可以通過自動化數(shù)據(jù)收集來更有效地做到這一點(diǎn)。Python中有幾種工具可以幫助自動化。

完成本教程后,您將學(xué)習(xí):

  • 如何使用 requests 庫通過 HTTP 讀取網(wǎng)絡(luò)數(shù)據(jù)
  • 如何使用 pandas 讀取網(wǎng)頁上的表格
  • 如何使用 Selenium 模擬瀏覽器操作

概述

本教程分為三個(gè)部分;它們是:

  • 使用 requests
  • 使用 panda 在網(wǎng)絡(luò)上閱讀表格
  • selenium 閱讀動態(tài)內(nèi)容

使用requests庫

當(dāng)我們談?wù)摼帉慞ython程序從Web上讀取時(shí),不可避免的是我們無法避免requests庫。您需要安裝它(以及我們稍后將介紹的BeautifulSoup和lxml):

pip install requests beautifulsoup4 lxml

它為您提供了一個(gè)界面,可讓您輕松與網(wǎng)絡(luò)進(jìn)行交互。

非常簡單的用例是從URL讀取網(wǎng)頁:

import requests

# Lat-Lon of New York
URL = "https://weather.com/weather/today/l/40.75,-73.98"
resp = requests.get(URL)
print(resp.status_code)
print(resp.text)

運(yùn)行結(jié)果:

python 爬蟲熱身篇 使用 requests 庫通過 HTTP 讀取網(wǎng)絡(luò)數(shù)據(jù),使用 pandas 讀取網(wǎng)頁上的表格,使用 Selenium 模擬瀏覽器操作

如果您熟悉 HTTP,您可能還記得狀態(tài)代碼 200 表示請求已成功完成。然后我們可以閱讀響應(yīng)。在上面,我們閱讀文本響應(yīng)并獲取網(wǎng)頁的HTML。如果它是CSV或其他一些文本數(shù)據(jù),我們可以在響應(yīng)對象的屬性中獲取它們。例如text,這就是我們從美聯(lián)儲經(jīng)濟(jì)學(xué)數(shù)據(jù)中讀取CSV的方法:

以下例子會用到pandas 模塊 :

安裝: pip install pandas -i https://pypi.tuna.tsinghua.edu.cn/simple

import io
import pandas as pd
import requests

URL = "https://fred.stlouisfed.org/graph/fredgraph.csv?id=T10YIE&cosd=2017-04-14&coed=2022-04-14"
resp = requests.get(URL)
if resp.status_code == 200:
   csvtext = resp.text
   csvbuffer = io.StringIO(csvtext)
   df = pd.read_csv(csvbuffer)
   print(df)

運(yùn)行結(jié)果:

python 爬蟲熱身篇 使用 requests 庫通過 HTTP 讀取網(wǎng)絡(luò)數(shù)據(jù),使用 pandas 讀取網(wǎng)頁上的表格,使用 Selenium 模擬瀏覽器操作

如果數(shù)據(jù)是JSON的形式,我們可以將其讀取為文本,甚至可以為您解碼。例如,以下是以JSON格式從GitHub中提取一些數(shù)據(jù)并將其轉(zhuǎn)換為Python字典:

import requests

URL = "https://api.github.com/users/jbrownlee"
resp = requests.get(URL)
if resp.status_code == 200:
    data = resp.json()
    print(data)

運(yùn)行結(jié)果:

python 爬蟲熱身篇 使用 requests 庫通過 HTTP 讀取網(wǎng)絡(luò)數(shù)據(jù),使用 pandas 讀取網(wǎng)頁上的表格,使用 Selenium 模擬瀏覽器操作

但是,如果 URL 為您提供了一些二進(jìn)制數(shù)據(jù),例如 ZIP 文件或 JPEG 圖像,則需要在屬性中獲取它們,因?yàn)檫@將是二進(jìn)制數(shù)據(jù)。例如,這就是我們下載圖像(維基百科的標(biāo)志)的方式:

import requests

URL = "https://en.wikipedia.org/static/images/project-logos/enwiki.png"
wikilogo = requests.get(URL)
if wikilogo.status_code == 200:
    with open("enwiki.png", "wb") as fp:
        fp.write(wikilogo.content)

運(yùn)行結(jié)果:

python 爬蟲熱身篇 使用 requests 庫通過 HTTP 讀取網(wǎng)絡(luò)數(shù)據(jù),使用 pandas 讀取網(wǎng)頁上的表格,使用 Selenium 模擬瀏覽器操作

鑒于我們已經(jīng)獲得了網(wǎng)頁,我們應(yīng)該如何提取數(shù)據(jù)?這超出了requests所能提供給我們的范圍,但我們可以使用不同的library 來提供幫助。有兩種方法可以做到這一點(diǎn),這取決于我們想要如何指定數(shù)據(jù)。

第一種方法是將 HTML 視為一種 XML 文檔,并使用 XPath 語言提取元素。在這種情況下,我們可以利用該庫首先創(chuàng)建一個(gè)文檔對象模型(DOM),然后通過XPath進(jìn)行搜索:

import requests
from lxml import etree



URL = "https://weather.com/weather/today/l/40.75,-73.98"
resp = requests.get(URL)

# 從HTML文本創(chuàng)建DOM
dom = etree.HTML(resp.text)
# 搜索溫度元素并獲得內(nèi)容
elements = dom.xpath("http://span[@data-testid='TemperatureValue' and contains(@class,'CurrentConditions')]")
print(elements[0].text)

XPath 是一個(gè)字符串,它指定如何查找元素。lxml 對象提供了一個(gè)函數(shù),用于在 DOM 中搜索與 XPath 字符串匹配的元素,這些元素可以是多個(gè)匹配項(xiàng)。上面的 XPath 意味著在具有標(biāo)記和屬性與 “” 匹配且以 “” 開頭的任何位置查找 HTML 元素。我們可以通過檢查HTML源代碼從瀏覽器的開發(fā)人員工具(例如,下面的Chrome屏幕截圖)中學(xué)習(xí)這一點(diǎn)。xpath()``<span>``data-testid``TemperatureValue``class``CurrentConditions

python 爬蟲熱身篇 使用 requests 庫通過 HTTP 讀取網(wǎng)絡(luò)數(shù)據(jù),使用 pandas 讀取網(wǎng)頁上的表格,使用 Selenium 模擬瀏覽器操作

這個(gè)例子是找到紐約市的溫度,由我們從這個(gè)網(wǎng)頁獲得的這個(gè)特定元素提供。我們知道與 XPath 匹配的第一個(gè)元素是我們需要的,我們可以讀取標(biāo)記內(nèi)的文本。<span>

另一種方法是在HTML文檔上使用CSS選擇器,我們可以利用BeautifulSoup庫:

import requests
from bs4 import BeautifulSoup



URL = "https://weather.com/weather/today/l/40.75,-73.98"
resp = requests.get(URL)

soup = BeautifulSoup(resp.text, "lxml")
elements = soup.select('span[data-testid="TemperatureValue"][class^="CurrentConditions"]')
print(elements[0].text)

運(yùn)行結(jié)果:

python 爬蟲熱身篇 使用 requests 庫通過 HTTP 讀取網(wǎng)絡(luò)數(shù)據(jù),使用 pandas 讀取網(wǎng)頁上的表格,使用 Selenium 模擬瀏覽器操作

在上面,我們首先將HTML文本傳遞給BeautifulSoup。BeautifulSoup支持各種HTML解析器,每個(gè)解析器具有不同的功能。在上面,我們使用庫作為BeautifulSoup推薦的解析器(它通常也是最快的)。CSS選擇器是一種不同的迷你語言,與XPath相比有優(yōu)點(diǎn)和缺點(diǎn)。上面的選擇器與我們在上一個(gè)示例中使用的 XPath 相同。因此,我們可以從第一個(gè)匹配的元素中獲得相同的溫度。

以下是根據(jù)網(wǎng)絡(luò)上的實(shí)時(shí)信息打印紐約當(dāng)前溫度的完整代碼:

import requests
from bs4 import BeautifulSoup
from lxml import etree


URL = "https://weather.com/weather/today/l/40.75,-73.98"
resp = requests.get(URL)

if resp.status_code == 200:
    # Using lxml
    dom = etree.HTML(resp.text)
    elements = dom.xpath("http://span[@data-testid='TemperatureValue' and contains(@class,'CurrentConditions')]")
    print(elements[0].text)

    # Using BeautifulSoup
    soup = BeautifulSoup(resp.text, "lxml")
    elements = soup.select('span[data-testid="TemperatureValue"][class^="CurrentConditions"]')
    print(elements[0].text)

可以想象,您可以通過定期運(yùn)行此腳本來收集溫度的時(shí)間序列。同樣,我們可以從各種網(wǎng)站自動收集數(shù)據(jù)。這就是我們?yōu)闄C(jī)器學(xué)習(xí)項(xiàng)目獲取數(shù)據(jù)的方法。

使用 panda 在網(wǎng)絡(luò)上閱讀表格

通常,網(wǎng)頁將使用表格來承載數(shù)據(jù)。如果頁面足夠簡單,我們甚至可以跳過檢查它以找出XPath或CSS選擇器,并使用pandas一次性獲取頁面上的所有表格。它很簡單,可以在一行中完成:

import pandas as pd

tables = pd.read_html("https://www.federalreserve.gov/releases/h10/current/")
print(tables)
[                               Instruments 2022Apr7 2022Apr8 2022Apr11 2022Apr12 2022Apr13
0          Federal funds (effective) 1 2 3     0.33     0.33      0.33      0.33      0.33
1                 Commercial Paper 3 4 5 6      NaN      NaN       NaN       NaN       NaN
2                             Nonfinancial      NaN      NaN       NaN       NaN       NaN
3                                  1-month     0.30     0.34      0.36      0.39      0.39
4                                  2-month     n.a.     0.48      n.a.      n.a.      n.a.
5                                  3-month     n.a.     n.a.      n.a.      0.78      0.78
6                                Financial      NaN      NaN       NaN       NaN       NaN
7                                  1-month     0.49     0.45      0.46      0.39      0.46
8                                  2-month     n.a.     n.a.      0.60      0.71      n.a.
9                                  3-month     0.85     0.81      0.75      n.a.      0.86
10                   Bank prime loan 2 3 7     3.50     3.50      3.50      3.50      3.50
11      Discount window primary credit 2 8     0.50     0.50      0.50      0.50      0.50
12              U.S. government securities      NaN      NaN       NaN       NaN       NaN
13   Treasury bills (secondary market) 3 4      NaN      NaN       NaN       NaN       NaN
14                                  4-week     0.21     0.20      0.21      0.19      0.23
15                                 3-month     0.68     0.69      0.78      0.74      0.75
16                                 6-month     1.12     1.16      1.22      1.18      1.17
17                                  1-year     1.69     1.72      1.75      1.67      1.67
18            Treasury constant maturities      NaN      NaN       NaN       NaN       NaN
19                               Nominal 9      NaN      NaN       NaN       NaN       NaN
20                                 1-month     0.21     0.20      0.22      0.21      0.26
21                                 3-month     0.68     0.70      0.77      0.74      0.75
22                                 6-month     1.15     1.19      1.23      1.20      1.20
23                                  1-year     1.78     1.81      1.85      1.77      1.78
24                                  2-year     2.47     2.53      2.50      2.39      2.37
25                                  3-year     2.66     2.73      2.73      2.58      2.57
26                                  5-year     2.70     2.76      2.79      2.66      2.66
27                                  7-year     2.73     2.79      2.84      2.73      2.71
28                                 10-year     2.66     2.72      2.79      2.72      2.70
29                                 20-year     2.87     2.94      3.02      2.99      2.97
30                                 30-year     2.69     2.76      2.84      2.82      2.81
31                    Inflation indexed 10      NaN      NaN       NaN       NaN       NaN
32                                  5-year    -0.56    -0.57     -0.58     -0.65     -0.59
33                                  7-year    -0.34    -0.33     -0.32     -0.36     -0.31
34                                 10-year    -0.16    -0.15     -0.12     -0.14     -0.10
35                                 20-year     0.09     0.11      0.15      0.15      0.18
36                                 30-year     0.21     0.23      0.27      0.28      0.30
37  Inflation-indexed long-term average 11     0.23     0.26      0.30      0.30      0.33,  

pandas 中的函數(shù)read_html()讀取 URL 并查找頁面上的所有表。每個(gè)表都轉(zhuǎn)換為 pandas DataFrame,然后在列表中返回所有表。在這個(gè)例子中,我們正在閱讀美聯(lián)儲的各種利率,而美聯(lián)儲恰好在這個(gè)頁面上只有一個(gè)表格。表列由 pandas 自動標(biāo)識。

很可能并非所有表格都是我們感興趣的。有時(shí),網(wǎng)頁會使用表格作為格式化頁面的一種方式,但熊貓可能不夠聰明, 無法分辨。因此,我們需要測試并挑選函數(shù)返回的結(jié)果。

用硒閱讀動態(tài)內(nèi)容

現(xiàn)代網(wǎng)頁的很大一部分充滿了JavaScript。這給了我們一個(gè)更奇特的體驗(yàn),但成為一個(gè)障礙,用作提取數(shù)據(jù)的程序。一個(gè)例子是雅虎的主頁,如果我們只加載頁面并找到所有新聞標(biāo)題,那么在瀏覽器上看到的要少得多:

import requests

# Read Yahoo home page
from lxml import etree

URL = "https://www.yahoo.com/"
resp = requests.get(URL)
dom = etree.HTML(resp.text)

# Print news headlines
elements = dom.xpath("http://h3/a[u[@class='StretchedBox']]")
for elem in elements:
    print(etree.tostring(elem, method="text", encoding="unicode"))

運(yùn)行結(jié)果:

python 爬蟲熱身篇 使用 requests 庫通過 HTTP 讀取網(wǎng)絡(luò)數(shù)據(jù),使用 pandas 讀取網(wǎng)頁上的表格,使用 Selenium 模擬瀏覽器操作

這是因?yàn)橄襁@樣的網(wǎng)頁依靠JavaScript來填充內(nèi)容。著名的Web框架,如AngularJS或React,是這一類別的幕后推手。Python 庫,比如requests ,不理解 JavaScript。因此,您將看到不同的結(jié)果。如果你想從網(wǎng)上獲取的數(shù)據(jù)就是其中之一,你可以研究JavaScript是如何被調(diào)用的,并在你的程序中模仿瀏覽器的行為。但這可能太乏味了,無法使其正常工作。

另一種方法是要求真正的瀏覽器讀取網(wǎng)頁,而不是使用requests。這就是selenium可以做的。在使用它之前,我們需要安裝庫:

pip install selenium

但Selenium只是一個(gè)控制瀏覽器的框架。您需要在計(jì)算機(jī)上安裝瀏覽器以及將Selenium連接到瀏覽器的驅(qū)動程序。如果您打算使用Chrome,則還需要下載并安裝ChromeDriver。您需要將驅(qū)動程序chromedriver放在可執(zhí)行路徑中,以便Selenium可以像普通命令一樣調(diào)用它。

同樣,如果你使用的是Firefox,你需要GeckoDriver。有關(guān)設(shè)置Selenium的更多詳細(xì)信息,請參閱其文檔。

之后,您可以使用 Python 腳本來控制瀏覽器行為。例如:

import time
from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.common.by import By

# Launch Chrome browser in headless mode
options = webdriver.ChromeOptions()
options.add_argument("headless")
browser = webdriver.Chrome(options=options)

# Load web page
browser.get("https://www.yahoo.com")


# Network transport takes time. Wait until the page is fully loaded
def is_ready(browser):
    return browser.execute_script(r"""
        return document.readyState === 'complete'
    """)


WebDriverWait(browser, 30).until(is_ready)

# Scroll to bottom of the page to trigger JavaScript action
browser.execute_script("window.scrollTo(0, document.body.scrollHeight);")
time.sleep(1)
WebDriverWait(browser, 30).until(is_ready)

# Search for news headlines and print
elements = browser.find_elements(By.XPATH, "http://h3/a[u[@class='StretchedBox']]")
for elem in elements:
    print(elem.text)

# Close the browser once finish
browser.close()

上述代碼的工作原理如下。我們首先以無外設(shè)模式啟動瀏覽器,這意味著我們要求Chrome啟動但不顯示在屏幕上。如果我們想遠(yuǎn)程運(yùn)行腳本,這很重要,因?yàn)榭赡軟]有任何GUI支持。請注意,每個(gè)瀏覽器的開發(fā)方式都不同,因此我們使用的選項(xiàng)語法特定于Chrome。如果我們使用Firefox,代碼將是這樣的:

options = webdriver.FirefoxOptions()
options.set_headless()
browser = webdriver.Firefox(firefox_options=options)

啟動瀏覽器后,我們會為其提供一個(gè)要加載的 URL。但是,由于網(wǎng)絡(luò)需要時(shí)間來交付頁面,并且瀏覽器需要時(shí)間來呈現(xiàn)它,因此我們應(yīng)該等到瀏覽器準(zhǔn)備就緒后再繼續(xù)下一個(gè)操作。我們檢測瀏覽器是否已經(jīng)使用 JavaScript 完成了渲染。我們讓Selenium為我們運(yùn)行JavaScript代碼,并使用該函數(shù)告訴我們結(jié)果。我們利用Selenium的工具運(yùn)行它,直到它成功或直到30秒超時(shí)。加載頁面時(shí),我們滾動到頁面底部,以便可以觸發(fā)JavaScript以加載更多內(nèi)容。然后,我們無條件地等待一秒鐘,以確保瀏覽器觸發(fā)了JavaScript,然后等待頁面再次準(zhǔn)備就緒。之后,我們可以使用XPath(或者使用CSS選擇器)提取新聞標(biāo)題元素。由于瀏覽器是外部程序,因此我們負(fù)責(zé)在腳本中關(guān)閉它。

使用硒在幾個(gè)方面與使用庫不同。首先,您永遠(yuǎn)不會直接在Python代碼中擁有Web內(nèi)容。相反,您可以在需要時(shí)引用瀏覽器的內(nèi)容。因此,該函數(shù)返回的Web元素引用外部瀏覽器內(nèi)部的對象,因此在完成使用它們之前,我們不得關(guān)閉瀏覽器。其次,所有操作都應(yīng)基于瀏覽器交互而不是網(wǎng)絡(luò)請求。因此,您需要通過模擬鍵盤和鼠標(biāo)移動來控制瀏覽器。但作為回報(bào),您擁有支持JavaScript的全功能瀏覽器。例如,您可以使用 JavaScript 檢查頁面上某個(gè)元素的大小和位置,只有在呈現(xiàn) HTML 元素后,您才會知道這些大小和位置。

Selenium框架提供了更多功能,我們可以在這里介紹。它功能強(qiáng)大,但是由于它連接到瀏覽器,因此使用它比庫的要求更高,并且速度要慢得多。通常,這是從網(wǎng)絡(luò)收集信息的最后手段。

延伸閱讀

Python中另一個(gè)著名的Web爬行庫,我們上面沒有介紹過,那就是Scrapy。這就像將requests庫與BeautifulSoup合并為一體一樣。網(wǎng)絡(luò)協(xié)議很復(fù)雜。有時(shí)我們需要管理網(wǎng)絡(luò) cookie 或使用 POST 方法為請求提供額外的數(shù)據(jù)。所有這些都可以通過具有不同函數(shù)或額外參數(shù)的請求庫來完成。以下是一些資源供您深入了解:文章來源地址http://www.zghlxwxcb.cn/news/detail-403807.html

到了這里,關(guān)于python 爬蟲熱身篇 使用 requests 庫通過 HTTP 讀取網(wǎng)絡(luò)數(shù)據(jù),使用 pandas 讀取網(wǎng)頁上的表格,使用 Selenium 模擬瀏覽器操作的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 【頭歌】——數(shù)據(jù)分析與實(shí)踐-python-網(wǎng)絡(luò)爬蟲-Scrapy爬蟲基礎(chǔ)-網(wǎng)頁數(shù)據(jù)解析-requests 爬蟲-JSON基礎(chǔ)

    第1關(guān) 爬取網(wǎng)頁的表格信息 第2關(guān) 爬取表格中指定單元格的信息 第3關(guān) 將單元格的信息保存到列表并排序 第4關(guān) 爬取div標(biāo)簽的信息 第5關(guān) 爬取單頁多個(gè)div標(biāo)簽的信息 第6關(guān) 爬取多個(gè)網(wǎng)頁的多個(gè)div標(biāo)簽的信息 第1關(guān) Scarpy安裝與項(xiàng)目創(chuàng)建 第2關(guān) Scrapy核心原理 第1關(guān) XPath解析網(wǎng)頁 第

    2024年01月22日
    瀏覽(29)
  • python爬蟲03-request庫使用02

    目錄 ??????1、requests庫使用的通用框架: 2、requests下載圖片 3、發(fā)送get / post 請求傳遞參數(shù):? 4、requests庫下載視頻,并顯示進(jìn)度 5、requests.session進(jìn)行登錄保持 5.1 requests.session的作用和使用場景 5.2 使用方法 基礎(chǔ)鏈接 :?01-python-request庫使用01 1、requests庫使用的通用框

    2024年01月21日
    瀏覽(20)
  • python爬蟲02-requests庫使用01

    目錄 1、requests庫簡介 2、requests庫-安裝 3、requests庫-使用 3.1 導(dǎo)入模塊 3.2 發(fā)送請求 3.3 requests庫常用方法 3.4 訪問控制參數(shù)kwargs ?4、請求返回對象 Response 5、requests訪問時(shí)的可能異常 1、requests庫簡介 requests是一個(gè)http的第三方請求庫,發(fā)送http請求,并獲取響應(yīng)結(jié)果; 2、requests庫

    2024年01月20日
    瀏覽(55)
  • python爬蟲request和BeautifulSoup使用

    python爬蟲request和BeautifulSoup使用

    1.安裝request 2.引入庫 3.編寫代碼 發(fā)送請求 我們通過以下代碼可以打開豆瓣top250的網(wǎng)站 但因?yàn)樵摼W(wǎng)站加入了反爬機(jī)制,所以我們需要在我們的請求報(bào)文的頭部加入U(xiǎn)ser-Agent的信息 User-Agent可以通過訪問網(wǎng)站時(shí)按f12查看獲取 我們可以通過response的ok屬性判斷是否請求成功 此時(shí)如果

    2024年02月08日
    瀏覽(21)
  • 爬蟲requests使用代理報(bào)錯(cuò)Your proxy appears to only use HTTP and not HTTPS...

    python版本:3.9.4 requests版本:2.28.2 詳細(xì)報(bào)錯(cuò)如下 代理使用如下: 使用如下代理設(shè)置,報(bào)錯(cuò)得到解決 總結(jié):由于之前使用的是python3.6.8版本,代理設(shè)置為’https’: \\\'https://xxxx’可以正常使用,而升級到python3.9.4則出現(xiàn)了上述問題。建議代理的使用統(tǒng)一為 ‘https’: ‘http://xxxx’

    2024年02月15日
    瀏覽(33)
  • Python網(wǎng)絡(luò)爬蟲之HTTP原理

    Python網(wǎng)絡(luò)爬蟲之HTTP原理

    寫爬蟲之前,我們還需要了解一些基礎(chǔ)知識,如HTTP原理、網(wǎng)頁的基礎(chǔ)知識、爬蟲的基本原理、Cookies的基本原理等。本文中,我們就對這些基礎(chǔ)知識做一個(gè)簡單的總結(jié)。 ??HTTP 基本原理 在本文中,我們會詳細(xì)了解 HTTP的基本原理,了解在瀏覽器中敲入U(xiǎn)RL 到獲取網(wǎng)頁內(nèi)容之間發(fā)

    2024年02月04日
    瀏覽(18)
  • Python爬蟲基礎(chǔ):使用requests模塊獲取網(wǎng)頁內(nèi)容

    Python爬蟲基礎(chǔ):使用requests模塊獲取網(wǎng)頁內(nèi)容

    了解如何使用Python中的requests模塊進(jìn)行網(wǎng)頁內(nèi)容獲取,包括獲取網(wǎng)頁步驟、代碼實(shí)現(xiàn)、狀態(tài)碼查看、提取信息等。

    2024年02月22日
    瀏覽(27)
  • 〖Python網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)①〗- HTTP原理

    訂閱:新手可以訂閱我的其他專欄。免費(fèi)階段訂閱量1000+ ????????????????python項(xiàng)目實(shí)戰(zhàn) ???????????????? Python編程基礎(chǔ)教程系列(零基礎(chǔ)小白搬磚逆襲) 說明:本專欄持續(xù)更新中,目前專欄免費(fèi)訂閱,在轉(zhuǎn)為付費(fèi)專欄前訂閱本專欄的,可以免費(fèi)訂閱付費(fèi)專欄,

    2023年04月09日
    瀏覽(57)
  • 利用Python進(jìn)行網(wǎng)絡(luò)爬蟲:Beautiful Soup和Requests的應(yīng)用【第131篇—Beautiful Soup】

    利用Python進(jìn)行網(wǎng)絡(luò)爬蟲:Beautiful Soup和Requests的應(yīng)用【第131篇—Beautiful Soup】

    在網(wǎng)絡(luò)數(shù)據(jù)變得日益豐富和重要的今天,網(wǎng)絡(luò)爬蟲成為了獲取和分析數(shù)據(jù)的重要工具之一。Python作為一種強(qiáng)大而靈活的編程語言,在網(wǎng)絡(luò)爬蟲領(lǐng)域也擁有廣泛的應(yīng)用。本文將介紹如何使用Python中的兩個(gè)流行庫Beautiful Soup和Requests來創(chuàng)建簡單而有效的網(wǎng)絡(luò)爬蟲,以便從網(wǎng)頁中提取

    2024年03月17日
    瀏覽(24)
  • Python 網(wǎng)絡(luò)爬蟲(二):HTTP 基礎(chǔ)知識

    Python 網(wǎng)絡(luò)爬蟲(二):HTTP 基礎(chǔ)知識

    《Python入門核心技術(shù)》專欄總目錄?點(diǎn)這里

    2024年02月04日
    瀏覽(25)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包