国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Python爬蟲基礎（三）：使用Selenium動態(tài)加載網(wǎng)頁

2年前作者：禿了也弱了。分類：Toy博客閱讀(30)違法舉報

這篇具有很好參考價值的文章主要介紹了Python爬蟲基礎（三）：使用Selenium動態(tài)加載網(wǎng)頁。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

系列文章索引

Python爬蟲基礎（一）：urllib庫的使用詳解
Python爬蟲基礎（二）：使用xpath與jsonpath解析爬取的數(shù)據(jù)
Python爬蟲基礎（三）：使用Selenium動態(tài)加載網(wǎng)頁
Python爬蟲基礎（四）：使用更方便的requests庫
Python爬蟲基礎（五）：使用scrapy框架

一、Selenium簡介

1、什么是selenium？

（1）Selenium是一個用于Web應用程序測試的工具。
（2）Selenium 測試直接運行在瀏覽器中，就像真正的用戶在操作一樣。
（3）支持通過各種driver（FirfoxDriver，IternetExplorerDriver，OperaDriver，ChromeDriver）驅動真實瀏覽器完成測試。
（4）selenium也是支持無界面瀏覽器操作的。

模擬瀏覽器功能，自動執(zhí)行網(wǎng)頁中的js代碼，實現(xiàn)動態(tài)加載

2、為什么使用selenium

我們打開京東，看到有一個秒殺的模塊，從網(wǎng)頁源碼中也可以定位到：
selenium動態(tài)加載,python大家庭,python,爬蟲,selenium
但是我們使用urllib爬取：

import urllib.request

url = 'https://www.jd.com/'
urllib.request.urlretrieve(url,'jd.html')

爬取的網(wǎng)頁，我們全局搜索發(fā)現(xiàn)，并沒有秒殺這部分內容。

因為秒殺這部分內容，是在js中動態(tài)加載的，而selenium就可以模擬瀏覽器功能，自動執(zhí)行網(wǎng)頁中的js代碼，實現(xiàn)動態(tài)加載。

3、安裝selenium

（1）谷歌瀏覽器驅動下載安裝

查看谷歌瀏覽器的版本：幫助->關于google chrome，查看版本。

根據(jù)版本查找對應的chromedriver，大版本對應就可以，小版本不需要關心，下載地址（第一個網(wǎng)速比較慢），32位和64位都能用：
http://chromedriver.storage.googleapis.com/index.html
https://registry.npmmirror.com/binary.html?path=chromedriver/
selenium動態(tài)加載,python大家庭,python,爬蟲,selenium

如果是最新版的谷歌瀏覽器，以上可能沒有同步更新，試試下面的網(wǎng)站：
https://googlechromelabs.github.io/chrome-for-testing/

下載之后是一個壓縮文件。
selenium動態(tài)加載,python大家庭,python,爬蟲,selenium

將解壓出來的exe文件，放到python項目的根目錄下（為了方便使用，不這樣做的話，使用時指定路徑也可）。

（2）安裝selenium

# 進入到python安裝目錄的Scripts目錄
d:
cd D:\python\Scripts
# 安裝
pip install selenium -i https://pypi.douban.com/simple

二、Selenium使用

1、簡單使用

簡單三步，輕松使用，獲取網(wǎng)頁的全部內容（網(wǎng)頁完全加載完畢之后的）。

# （1）導入selenium
from selenium import webdriver

# (2) 創(chuàng)建瀏覽器操作對象，就是指定我們驅動的路徑
path = 'chromedriver.exe'

browser = webdriver.Chrome(path)

# （3）訪問網(wǎng)站

url = 'https://www.jd.com/'

browser.get(url)

# page_source獲取網(wǎng)頁源碼
content = browser.page_source
with open('jd.html','w',encoding='utf-8') as fp:
    fp.write(content)

2、元素定位

元素定位：自動化要做的就是模擬鼠標和鍵盤來操作來操作這些元素，點擊、輸入等等。操作這些元素前首先要找到它們，WebDriver提供很多定位元素的方法。

from selenium import webdriver
from selenium.webdriver.common.by import By

path = 'chromedriver.exe'
browser = webdriver.Chrome(path)

url = 'https://www.baidu.com'
browser.get(url)

# 元素定位

# 根據(jù)id來找到對象 id = su
button = browser.find_element(by = By.ID, value = 'su')
print(button)

# 根據(jù)標簽屬性的屬性值來獲取對象的 name = wd
button = browser.find_element(by = By.NAME, value = 'wd')
print(button)

# 根據(jù)xpath語句來獲取對象 xpath語法
button = browser.find_element(by = By.XPATH, value = '//input[@id="su"]')
print(button)

# 根據(jù)標簽的名字來獲取對象
button = browser.find_element(by = By.TAG_NAME, value = 'input')
print(button)

# 使用的bs4的語法來獲取對象
button = browser.find_element(by = By.CSS_SELECTOR, value = '#su')
print(button)

# 獲取鏈接文本
button = browser.find_element(by = By.LINK_TEXT, value = '百度一下')
print(button)

By參數(shù) 包含許多可選的選項：
selenium動態(tài)加載,python大家庭,python,爬蟲,selenium

3、獲取元素信息

from selenium import webdriver
from selenium.webdriver.common.by import By

path = 'chromedriver.exe'
browser = webdriver.Chrome(path)

url = 'http://www.baidu.com'
browser.get(url)

input = browser.find_element(by = By.ID, value = 'su')

# 獲取標簽的屬性 獲取class屬性
print(input.get_attribute('class'))
# 獲取標簽的名字
print(input.tag_name)

# 獲取元素文本
a = browser.find_element(by = By.LINK_TEXT, value = '新聞')
print(a.text)

4、交互

from selenium import webdriver
from selenium.webdriver.common.by import By

# 創(chuàng)建瀏覽器對象
path = 'chromedriver.exe'
browser = webdriver.Chrome(path)

# url
url = 'https://www.baidu.com'
browser.get(url)

# 休眠2秒
import time
time.sleep(2)

# 獲取文本框的對象
input = browser.find_element(by = By.ID, value = 'kw')

# 在文本框中輸入周杰倫
input.send_keys('周杰倫')

time.sleep(2)

# 獲取百度一下的按鈕
button = browser.find_element(by = By.ID, value = 'su')

# 點擊按鈕
button.click()

time.sleep(2)

# 滑到底部
js_bottom = 'document.documentElement.scrollTop=100000'
browser.execute_script(js_bottom)

time.sleep(2)

# 獲取下一頁的按鈕
next = browser.find_element(by = By.XPATH, value = '//a[@class="n"]')

# 點擊下一頁
next.click()

time.sleep(2)

# 回到上一頁
browser.back()

time.sleep(2)

# 回去
browser.forward()

time.sleep(3)

# 退出
browser.quit()

三、Phantomjs使用（停更）

1、什么是Phantomjs

（1）是一個無界面的瀏覽器
（2）支持頁面元素查找，js的執(zhí)行等
（3）由于不進行css和gui渲染，運行效率要比真實的瀏覽器要快很多

Phantomjs已經(jīng)過時了，推薦使用Chrome handless，高版本的Selenium已經(jīng)不支持Phantomjs了

2、下載

官網(wǎng)：http://wenku.kuryun.com/docs/phantomjs/download.html
selenium動態(tài)加載,python大家庭,python,爬蟲,selenium
將下載的phantomjs.exe文件拷貝到項目目錄（為了方便使用，不這樣做的話，使用時指定路徑也可）。

3、使用Phantomjs

（1）獲取PhantomJS.exe文件路徑path
（2）browser = webdriver.PhantomJS(path)
（3）browser.get(url)
擴展：保存屏幕快照:browser.save_screenshot(‘baidu.png’)

from selenium import webdriver

path = 'phantomjs.exe'

browser = webdriver.PhantomJS(path)


url = 'https://www.baidu.com'
browser.get(url)
# 保存快照
browser.save_screenshot('baidu.png')

import time
time.sleep(2)
# 最新版selenium不支持該語法
input = browser.find_element_by_id('kw')
input.send_keys('昆凌')

time.sleep(3)

browser.save_screenshot('kunling.png')

四、Chrome handless無界面模式

1、簡介

Chrome-headless 模式， Google 針對 Chrome 瀏覽器 59版新增加的一種模式，可以讓你不打開UI界面的情況下使用 Chrome 瀏覽器，所以運行效果與 Chrome 保持完美一致，性能更高。

系統(tǒng)要求：
Chrome：Unix\Linux 系統(tǒng)需要 chrome >= 59、Windows 系統(tǒng)需要 chrome >= 60
Python3.6 +
Selenium3.4.* +
ChromeDriver2.31 +文章來源地址http://www.zghlxwxcb.cn/news/detail-735744.html

2、基本使用

from selenium import webdriver
from selenium.webdriver.chrome.options import Options

def share_browser():
    '''
        該方法的內容，都不需要動，只需要修改自己的chrome瀏覽器路徑
    '''
    chrome_options = Options()
    chrome_options.add_argument('--headless')
    chrome_options.add_argument('--disable-gpu')

    # path是你自己的chrome瀏覽器的文件路徑
    path = r'C:\Users\Administrator\AppData\Local\Google\Chrome\Application\chrome.exe'
    chrome_options.binary_location = path

    browser = webdriver.Chrome(chrome_options=chrome_options)
    return browser

browser = share_browser()

url = 'https://www.baidu.com'

browser.get(url)

browser.save_screenshot('baidu.png')

到了這里，關于Python爬蟲基礎（三）：使用Selenium動態(tài)加載網(wǎng)頁的文章就介紹完了。如果您還想了解更多內容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。如若轉載，請注明出處：如若內容造成侵權/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領支付寶紅包贊助服務器費用

Python爬蟲——Selenium在獲取網(wǎng)頁數(shù)據(jù)方面的使用
目錄一、Selenium （一）引入 ?（二）啟動瀏覽器二、操作（一）點擊（二）輸入三、數(shù)據(jù)獲取四、特點五、抓取拉鉤實例六、其他操作（一）窗口切換代碼（二）操作下拉列表/無頭瀏覽器代碼 ????????一個電影票房的網(wǎng)站里，響應數(shù)據(jù)是一串完全看不懂的字符串
2024年02月07日
瀏覽(25)
Python爬蟲|使用Selenium輕松爬取網(wǎng)頁數(shù)據(jù)
1. 什么是selenium？ Selenium是一個用于Web應用程序自動化測試工具。Selenium測試直接運行在瀏覽器中，就像真正的用戶在操作瀏覽器一樣。支持的瀏覽器包括IE，F(xiàn)irefox，Safari，Chrome等。 Selenium可以驅動瀏覽器自動執(zhí)行自定義好的邏輯代碼，也就是可以通過代碼完全模擬成人類使用
2024年02月04日
瀏覽(32)
python爬蟲篇：使用Selenium自動打開小說網(wǎng)頁并自動瀏覽
需求：python，pycharm，Selenium庫，火狐或ie瀏覽器文章目錄一、自動打開小說網(wǎng)頁并瀏覽簡單使用Selenium庫，實現(xiàn)對瀏覽器的自動化操作一、自動打開小說網(wǎng)頁并瀏覽方法：使用命令行下載或者在pycharm中下載使用命令行下載：打開cmd終端，輸入pip install selenium ?在pycharm中下
2024年02月10日
瀏覽(29)
Scrapy爬蟲框架集成Selenium來解析動態(tài)網(wǎng)頁
當前網(wǎng)站普遍采用了javascript 動態(tài)頁面，特別是vue與react的普及，使用scrapy框架定位動態(tài)網(wǎng)頁元素十分困難，而selenium是最流行的瀏覽器自動化工具，可以模擬瀏覽器來操作網(wǎng)頁，解析元素，執(zhí)行動作，可以處理動態(tài)網(wǎng)頁，使用selenium處理1個大型網(wǎng)站，速度很慢，而且非常耗資
2024年02月15日
瀏覽(26)
Java學習筆記：爬蟲-操作動態(tài)網(wǎng)頁的Selenium
Why Selenium? 有些網(wǎng)頁內容是在瀏覽器端動態(tài)生成的，直接Http獲取網(wǎng)頁源碼是得不到那些元素的。 Selenium可以自動啟動一個瀏覽器、打開網(wǎng)頁，可以用程序操作頁面元素，也可以獲得瀏覽器當前頁面動態(tài)加載的頁面元素。比如：百度圖片的圖片是動態(tài)加載的。用法： 1、下載安
2024年02月13日
瀏覽(26)
100天玩轉python——day67 使用Selenium抓取網(wǎng)頁動態(tài)內容
根據(jù)權威機構發(fā)布的全球互聯(lián)網(wǎng)可訪問性審計報告，全球約有四分之三的網(wǎng)站其內容或部分內容是通過JavaScript動態(tài)生成的，這就意味著在瀏覽器窗口中“查看網(wǎng)頁源代碼”時無法在HTML代碼中找到這些內容，也就是說我們之前用的抓取數(shù)據(jù)的方式無法正常運轉了。解決這樣的
2024年02月09日
瀏覽(46)
模擬動態(tài)加載網(wǎng)頁數(shù)據(jù)Selenium，Puppeteer，WebDriver，Requests-HTML
模擬動態(tài)加載網(wǎng)頁數(shù)據(jù)，你可以使用以下工具： Selenium：Selenium是一個用于Web應用程序測試的工具，它可以模擬用戶在瀏覽器上的操作，包括點擊、滾動、填寫表單等。因此，它也可以用于爬取那些動態(tài)加載內容的網(wǎng)頁。Selenium支持多種瀏覽器，并且提供了多種編程語言的接口
2024年04月25日
瀏覽(17)
Python爬蟲【selenium的基礎使用】
一.本文背景及概要筆者在Python爬蟲的學習過程中接觸selenium，驚覺此包的強大之處，便對學習的知識做個記錄，方便日后需要時查看，同時也和讀者分享。文中表述如有錯誤，敬請指正，感激不盡。本文主要是對selenium的概要和一些基礎的用法。特此說明：筆者學習的資料中
2024年02月04日
瀏覽(26)
Python爬蟲之selenium的基礎使用
一.本文背景及概要筆者在Python爬蟲的學習過程中接觸selenium，驚覺此包的強大之處，便對學習的知識做個記錄，方便日后需要時查看，同時也和讀者分享。文中表述如有錯誤，敬請指正，感激不盡。本文主要是對selenium的概要和一些基礎的用法。特此說明：筆者學習的資料中
2024年02月07日
瀏覽(21)
python爬蟲進階篇：Scrapy中使用Selenium模擬Firefox火狐瀏覽器爬取網(wǎng)頁信息
接著上一篇的筆記，Scrapy爬取普通無反爬、靜態(tài)頁面的網(wǎng)頁時可以順利爬取我們要的信息。但是大部分情況下我們要的數(shù)據(jù)所在的網(wǎng)頁它是動態(tài)加載出來的（ajax請求后傳回前端頁面渲染、js調用function等）。這種情況下需要使用selenium進行模擬人工操作瀏覽器行為，實現(xiàn)自動化
2024年02月04日
瀏覽(102)

国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Toy模板網(wǎng)

Python爬蟲基礎（三）：使用Selenium動態(tài)加載網(wǎng)頁

系列文章索引

一、Selenium簡介

1、什么是selenium？

2、為什么使用selenium

3、安裝selenium

（1）谷歌瀏覽器驅動下載安裝

（2）安裝selenium

二、Selenium使用

1、簡單使用

2、元素定位

3、獲取元素信息

4、交互

三、Phantomjs使用（停更）

1、什么是Phantomjs

2、下載

3、使用Phantomjs

四、Chrome handless無界面模式

1、簡介

2、基本使用

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

微信掃一掃打賞

支付寶掃一掃領取紅包，優(yōu)惠每天領

二維碼1

二維碼2

Python爬蟲基礎（三）：使用Selenium動態(tài)加載網(wǎng)頁

系列文章索引

一、Selenium簡介

1、什么是selenium？

2、為什么使用selenium

3、安裝selenium

（1）谷歌瀏覽器驅動下載安裝

（2）安裝selenium

二、Selenium使用

1、簡單使用

2、元素定位

3、獲取元素信息

4、交互

三、Phantomjs使用（停更）

1、什么是Phantomjs

2、下載

3、使用Phantomjs

四、Chrome handless無界面模式

1、簡介

2、基本使用

相關文章

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

微信掃一掃打賞

支付寶掃一掃領取紅包，優(yōu)惠每天領

二維碼1

二維碼2

一、Selenium簡介

1、什么是selenium？

2、為什么使用selenium

1、簡單使用

3、獲取元素信息

4、交互

三、Phantomjs使用（停更）

2、下載

3、使用Phantomjs

四、Chrome handless無界面模式

1、簡介

2、基本使用

支付寶掃一掃領取紅包，優(yōu)惠每天領