国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Python爬蟲實(shí)現(xiàn)(requests、BeautifulSoup和selenium)

這篇具有很好參考價(jià)值的文章主要介紹了Python爬蟲實(shí)現(xiàn)(requests、BeautifulSoup和selenium)。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

Python爬蟲實(shí)現(xiàn)(requests、BeautifulSoup和selenium)

requests實(shí)現(xiàn)

Python requests 是一個(gè)常用的 HTTP 請(qǐng)求庫,可以方便地向網(wǎng)站發(fā)送 HTTP 請(qǐng)求,并獲取響應(yīng)結(jié)果。

下載requests庫

pip install requests

實(shí)例:

# 導(dǎo)入 requests 包
import requests

# 發(fā)送請(qǐng)求
x = requests.get('https://www.runoob.com/')

# 返回網(wǎng)頁內(nèi)容
print(x.text)

屬性和方法

屬性或方法 說明
content 返回響應(yīng)的內(nèi)容,以字節(jié)為單位
headers 返回響應(yīng)頭,字典格式
json() 返回結(jié)果的 JSON 對(duì)象
request 返回請(qǐng)求此響應(yīng)的請(qǐng)求對(duì)象
status_code 返回 http 的狀態(tài)碼
text 返回響應(yīng)的內(nèi)容,unicode 類型數(shù)據(jù)
url 返回響應(yīng)的 URL

附加請(qǐng)求參數(shù)

發(fā)送請(qǐng)求我們可以在請(qǐng)求中附加額外的參數(shù),例如請(qǐng)求頭、查詢參數(shù)、請(qǐng)求體等,例如:

headers = {'User-Agent': 'Mozilla/5.0'}  # 設(shè)置請(qǐng)求頭
params = {'key1': 'value1', 'key2': 'value2'}  # 設(shè)置查詢參數(shù)
data = {'username': 'example', 'password': '123456'}  # 設(shè)置請(qǐng)求體
response = requests.post('https://www.runoob.com', headers=headers, params=params, data=data)

上述代碼發(fā)送一個(gè) POST 請(qǐng)求,并附加了請(qǐng)求頭、查詢參數(shù)和請(qǐng)求體。

除了基本的 GET 和 POST 請(qǐng)求外,requests 還支持其他 HTTP 方法,如 PUT、DELETE、HEAD、OPTIONS 等。

使用 Beautiful Soup 解析 html 文件

Beautiful Soup is a library that makes it easy to scrape information from web pages. It sits atop an HTML or XML parser, providing Pythonic idioms for iterating, searching, and modifying the parse tree.
Beautiful Soup 是一個(gè)可以輕松從網(wǎng)頁中抓取信息的庫。它位于 HTML 或 XML 解析器之上,提供用于迭代、搜索和修改解析樹的 Pythonic 習(xí)慣用法。

beautifulsoup包安裝

pip install beautifulsoup4

實(shí)例:

from bs4 import BeautifulSoup

html_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a  class="sister" id="link1">Elsie</a>,
<a  class="sister" id="link2">Lacie</a> and
<a  class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>
<p class="story">...</p>
"""
# 創(chuàng)建一個(gè)BeautifulSoup解析對(duì)象
soup = BeautifulSoup(html_doc, "html.parser", from_encoding="utf-8")
# 獲取所有的鏈接
links = soup.find_all('a')
print("所有的鏈接")
for link in links:
    print(link.name, link['href'], link.get_text())

print("獲取特定的URL地址")
link_node = soup.find('a', href="http://example.com/elsie")
print(link_node.name, link_node['href'], link_node['class'], link_node.get_text())

運(yùn)行結(jié)果如下:

所有的鏈接
a http://example.com/elsie Elsie
a http://example.com/lacie Lacie
a http://example.com/tillie Tillie
獲取特定的URL地址
a http://example.com/elsie ['sister'] Elsie

selenium實(shí)現(xiàn)

Selenium是廣泛使用的模擬瀏覽器運(yùn)行的庫,它是一個(gè)用于Web應(yīng)用程序測試的工具。 Selenium測試直接運(yùn)行在瀏覽器中,就像真正的用戶在操作一樣,并且支持大多數(shù)現(xiàn)代 Web 瀏覽器。因此可以利用Selenium進(jìn)行爬蟲操作。

selenium官網(wǎng):https://www.selenium.dev/zh-cn/

selenium庫安裝

pip install selenium

瀏覽器驅(qū)動(dòng)下載:

針對(duì)不同的瀏覽器,需要安裝不同的驅(qū)動(dòng)。下面以安裝 Chrome 驅(qū)動(dòng)作為演示。

查看瀏覽器版本

點(diǎn)擊設(shè)置,找到“關(guān)于Chrome”,即可查看瀏覽器的版本。
Python爬蟲實(shí)現(xiàn)(requests、BeautifulSoup和selenium),Python,python,爬蟲

下載驅(qū)動(dòng)

下載地址:https://chromedriver.storage.googleapis.com/index.html

下載地址2:https://chromedriver.chromium.org/downloads

選擇chrome版本對(duì)應(yīng)的驅(qū)動(dòng)下載
Python爬蟲實(shí)現(xiàn)(requests、BeautifulSoup和selenium),Python,python,爬蟲

環(huán)境變量配置

將下載的驅(qū)動(dòng)復(fù)制到chrome的安裝目錄下
Python爬蟲實(shí)現(xiàn)(requests、BeautifulSoup和selenium),Python,python,爬蟲

配置環(huán)境變量

此電腦——屬性——高級(jí)系統(tǒng)設(shè)置——環(huán)境變量——用戶變量——Path——新建——復(fù)制粘貼chrome安裝路徑——確定
Python爬蟲實(shí)現(xiàn)(requests、BeautifulSoup和selenium),Python,python,爬蟲

運(yùn)行測試

運(yùn)行如下代碼,如果能彈出Chrome瀏覽器,則說明安裝成功。

from selenium import webdriver
# Chrome瀏覽器
driver = webdriver.Chrome()

代碼實(shí)戰(zhàn)

from selenium import webdriver
from selenium.webdriver.common.by import By

browser = webdriver.Chrome()
url = 'https://www.csdn.net/'
browser.get(url)
titles = browser.find_elements(By.CLASS_NAME, 'navigation-right')

for item in titles:
    print(item.text)

運(yùn)行結(jié)果如下:文章來源地址http://www.zghlxwxcb.cn/news/detail-729966.html

后端
前端
移動(dòng)開發(fā)
編程語言
Java
Python
人工智能
AIGC
大數(shù)據(jù)
數(shù)據(jù)庫
數(shù)據(jù)結(jié)構(gòu)與算法
音視頻
云原生
云平臺(tái)

到了這里,關(guān)于Python爬蟲實(shí)現(xiàn)(requests、BeautifulSoup和selenium)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • Python 爬蟲之 requests模塊(ua偽裝、代理、cookies、防盜鏈 Referer)、re模塊、xpath模塊、selenium

    Python 爬蟲之 requests模塊(ua偽裝、代理、cookies、防盜鏈 Referer)、re模塊、xpath模塊、selenium

    下載 發(fā)送 get 請(qǐng)求 案例:百度 發(fā)送 post 請(qǐng)求 案例:百度翻譯 UA 偽裝 代理 cookies 登錄 案例:17k小說網(wǎng) 防盜鏈 Referer 案例:梨視頻 findall search finditer 預(yù)加載 提前寫好正則表達(dá)式 匹配換行 re.S 在 html 中使用 原子組使用別名 爬取豆瓣電影 https://movie.douban.com/chart lxml.etree.XMLSy

    2024年01月24日
    瀏覽(49)
  • Python 爬蟲:如何用 BeautifulSoup 爬取網(wǎng)頁數(shù)據(jù)

    Python 爬蟲:如何用 BeautifulSoup 爬取網(wǎng)頁數(shù)據(jù)

    在網(wǎng)絡(luò)時(shí)代,數(shù)據(jù)是最寶貴的資源之一。而爬蟲技術(shù)就是一種獲取數(shù)據(jù)的重要手段。Python 作為一門高效、易學(xué)、易用的編程語言,自然成為了爬蟲技術(shù)的首選語言之一。而 BeautifulSoup 則是 Python 中最常用的爬蟲庫之一,它能夠幫助我們快速、簡單地解析 HTML 和 XML 文檔,從而

    2024年02月04日
    瀏覽(92)
  • python3 爬蟲相關(guān)學(xué)習(xí)9:BeautifulSoup 官方文檔學(xué)習(xí)

    python3 爬蟲相關(guān)學(xué)習(xí)9:BeautifulSoup 官方文檔學(xué)習(xí)

    目錄 1 BeautifulSoup 官方文檔 2 用bs 和 requests 打開 本地html的區(qū)別:代碼里的一段html內(nèi)容 2.1 代碼和運(yùn)行結(jié)果 2.2 用beautiful 打開 本地 html 文件 2.2.1 本地html文件 2.2.2?soup1=BeautifulSoup(html1,\\\"lxml\\\") 2.3?用requests打開 本地 html 文件 2.3.1 本地html文件 2.3.2 print(html1) 3 用bs 和 requests 打開 本

    2024年02月08日
    瀏覽(21)
  • python3 爬蟲相關(guān)學(xué)習(xí)7:初步摸索使用 BeautifulSoup

    python3 爬蟲相關(guān)學(xué)習(xí)7:初步摸索使用 BeautifulSoup

    目錄 1 一個(gè)爬圖片pic的代碼的例子 1.1 學(xué)習(xí)的原文章 1.2 原始代碼的問題總結(jié) 問題1 問題2 問題3 其他問題 1.3 原始代碼 2? 直接在cmd里 python運(yùn)行報(bào)錯(cuò) 和 處理 2.1 運(yùn)行報(bào)錯(cuò) 2.2 報(bào)錯(cuò)原因: 沒有提前安裝這個(gè)bs4? 模塊 2.3 如何提前知道我的python環(huán)境下有沒有安裝bs4 或其他模塊呢

    2024年02月08日
    瀏覽(29)
  • python晉江文學(xué)城數(shù)據(jù)分析(一)——爬蟲(BeautifulSoup正則)

    python晉江文學(xué)城數(shù)據(jù)分析(一)——爬蟲(BeautifulSoup正則)

    學(xué)爬蟲,拿平常看小說的綠色網(wǎng)站下手。 爬取的數(shù)據(jù)主要分為兩部分,收藏榜的小說信息和小說詳情頁的部分?jǐn)?shù)據(jù)。 ????????通過點(diǎn)擊榜單上側(cè)選項(xiàng)(其實(shí)也可以用拼音猜一猜),觀察url變化,尋找規(guī)律。如fw指代范圍,fbsj指代發(fā)表時(shí)間,ycx指代原創(chuàng)性,以此類推??梢?/p>

    2024年02月08日
    瀏覽(20)
  • Python爬蟲學(xué)習(xí)筆記(六)————BeautifulSoup(bs4)解析

    目錄 1.bs4基本簡介 (1)BeautifulSoup簡稱 (2)什么是BeatifulSoup? (3)優(yōu)缺點(diǎn) 2.bs4安裝以及創(chuàng)建 (1)安裝 ???????? (2)導(dǎo)入 ???????? (3)創(chuàng)建對(duì)象 3.節(jié)點(diǎn)定位 (1)根據(jù)標(biāo)簽名查找節(jié)點(diǎn) (2)函數(shù) ????????①find(返回一個(gè)對(duì)象) ????????②find_all(返回一個(gè)列表

    2024年02月17日
    瀏覽(16)
  • Python爬蟲——BeautifulSoup,獲取HTML中文檔,標(biāo)簽等內(nèi)容

    Python爬蟲——BeautifulSoup,獲取HTML中文檔,標(biāo)簽等內(nèi)容

    將復(fù)雜的HTML文檔轉(zhuǎn)換成一個(gè)復(fù)雜的樹形結(jié)構(gòu),每個(gè)結(jié)點(diǎn)都是一個(gè)Python對(duì)象,所有對(duì)象可以分為四種: Tag NavigableString BeautifulSoup Comment 首先要引入該函數(shù),再打開相應(yīng)的html文件讀取其中的內(nèi)容,在使用BeautiSoup對(duì)其進(jìn)行解析,解析的時(shí)候要使用相應(yīng)類型的解析器html.parser bs當(dāng)中

    2024年02月06日
    瀏覽(28)
  • python spider 爬蟲 之 解析 xpath 、jsonpath、BeautifulSoup (三)

    python spider 爬蟲 之 解析 xpath 、jsonpath、BeautifulSoup (三)

    簡稱:bs4 BeautifulSoup跟lxml 一樣,是一個(gè)html文檔的解析器,主要功能也是解析和提取數(shù)據(jù) 優(yōu)缺點(diǎn) 缺點(diǎn):效率沒有l(wèi)xml的效率高 優(yōu)點(diǎn):接口接口人性化,使用方便 延用了css選擇器 安裝BeautifulSoup 1、安裝:pip install bs4 2、導(dǎo)入:from bs4 import BeautifulSoup 3、創(chuàng)建bs4 對(duì)象 ① 服務(wù)器響

    2024年02月11日
    瀏覽(34)
  • 爬蟲框架有Scrapy、BeautifulSoup、Selenium

    爬蟲框架有Scrapy、BeautifulSoup、Selenium

    爬蟲框架有Scrapy、BeautifulSoup、Selenium BeautifulSoup比Scrapy相對(duì)容易學(xué)習(xí)。 Scrapy的擴(kuò)展,支持和社區(qū)比BeautifulSoup更大。 Scrapy應(yīng)被視為蜘蛛,而BeautifulSoup則是Parser。 1.爬蟲基礎(chǔ)知識(shí) 在開始Python爬蟲之前,需要先掌握一些基礎(chǔ)知識(shí)。首先了解一下HTTP協(xié)議,掌握常見的請(qǐng)求方法和狀

    2024年02月07日
    瀏覽(14)
  • python 爬蟲熱身篇 使用 requests 庫通過 HTTP 讀取網(wǎng)絡(luò)數(shù)據(jù),使用 pandas 讀取網(wǎng)頁上的表格,使用 Selenium 模擬瀏覽器操作

    python 爬蟲熱身篇 使用 requests 庫通過 HTTP 讀取網(wǎng)絡(luò)數(shù)據(jù),使用 pandas 讀取網(wǎng)頁上的表格,使用 Selenium 模擬瀏覽器操作

    在過去,收集數(shù)據(jù)是一項(xiàng)繁瑣的工作,有時(shí)非常昂貴。機(jī)器學(xué)習(xí)項(xiàng)目不能沒有數(shù)據(jù)。幸運(yùn)的是,我們現(xiàn)在在網(wǎng)絡(luò)上有很多數(shù)據(jù)可供我們使用。我們可以從 Web 復(fù)制數(shù)據(jù)來創(chuàng)建數(shù)據(jù)集。我們可以手動(dòng)下載文件并將其保存到磁盤。但是,我們可以通過自動(dòng)化數(shù)據(jù)收集來更有效地做

    2023年04月08日
    瀏覽(98)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包