国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<tfoot id="4im9u"><div id="4im9u"></div></tfoot>

Python爬蟲——Selenium在獲取網(wǎng)頁(yè)數(shù)據(jù)方面的使用

2年前作者：帶帶琪寶分類：Toy博客閱讀(24)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了Python爬蟲——Selenium在獲取網(wǎng)頁(yè)數(shù)據(jù)方面的使用。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

目錄

一、Selenium

（一）引入

?（二）啟動(dòng)瀏覽器

二、操作

（一）點(diǎn)擊

（二）輸入

三、數(shù)據(jù)獲取

四、特點(diǎn)

五、抓取拉鉤實(shí)例

六、其他操作

（一）窗口切換

代碼

（二）操作下拉列表/無頭瀏覽器

代碼

一、Selenium

selenium讀取網(wǎng)頁(yè)數(shù)據(jù),python,爬蟲

（一）引入

????????一個(gè)電影票房的網(wǎng)站里，響應(yīng)數(shù)據(jù)是一串完全看不懂的字符串，這些字串解開之后就是左邊的頁(yè)面。因?yàn)榻饷苓^程有可能很痛苦，那換個(gè)角度，能否不用 requests，而讓瀏覽器本身完成對(duì)這些數(shù)據(jù)的解密和執(zhí)行，直接顯示頁(yè)面呢

? ? ? ? 于是有思路：讓程序連接瀏覽器，讓瀏覽器完成復(fù)雜操作，此時(shí)我們只接收最終結(jié)果

????????Selenium 可以實(shí)現(xiàn)，它本身是一款自動(dòng)化測(cè)試工具，可以打開瀏覽器，像人一樣操作瀏覽器，人們可以從 Selenium 中直接提取到網(wǎng)頁(yè)上的各種信息，因?yàn)榫W(wǎng)頁(yè)信息對(duì)于 Selenium 來說是透明的，其本質(zhì)就是運(yùn)行一個(gè)瀏覽器

安裝說明：

????????Selenium 的環(huán)境搭建需要安裝包、下載對(duì)應(yīng)的瀏覽器驅(qū)動(dòng)

? ? ? ? 對(duì)應(yīng)的瀏覽器驅(qū)動(dòng)放在 Python 解釋器所在的文件夾下并將名稱改為 chromedriver（Pycharm執(zhí)行結(jié)果前面的那個(gè)路徑）

selenium讀取網(wǎng)頁(yè)數(shù)據(jù),python,爬蟲

?（二）啟動(dòng)瀏覽器

# 導(dǎo)入并啟動(dòng)
from selenium.webdriver import Chrome
# 1.創(chuàng)建瀏覽器對(duì)象
web=Chrome()
# 2.打開瀏覽器打開網(wǎng)址
web.get("http://www.baidu.com")

????????啟動(dòng)成功，顯示正在受自動(dòng)測(cè)試軟件控制，使用最新版的谷歌瀏覽器和驅(qū)動(dòng)啟動(dòng)后會(huì)自動(dòng)關(guān)閉瀏覽器，暫時(shí)不確定對(duì)于獲取數(shù)據(jù)會(huì)不會(huì)有影響

selenium讀取網(wǎng)頁(yè)數(shù)據(jù),python,爬蟲

? ? ? ? 這樣就建立了程序和瀏覽器的關(guān)系，可以用程序使得瀏覽器跑起來（對(duì)于動(dòng)態(tài)加載的數(shù)據(jù)會(huì)很有效）?

二、操作

（一）點(diǎn)擊

? ? ? ? 打開網(wǎng)頁(yè)，比如我想在這個(gè)網(wǎng)頁(yè)點(diǎn)擊“全國(guó)”這個(gè)按鈕，可以將 Xpath 復(fù)制過來

selenium讀取網(wǎng)頁(yè)數(shù)據(jù),python,爬蟲

? ? ? ? ?使用 find_element（有些版本是 find_element_by_xpath）

from selenium.webdriver import Chrome
# 1.創(chuàng)建瀏覽器對(duì)象
web=Chrome()
# 2.打開瀏覽器打開網(wǎng)址
web.get("http://lagou.com")

# 找到某個(gè)元素點(diǎn)擊
el=web.find_element('xpath','//*[@id="changeCityBox"]/p[1]/a')    
# 這樣子找到按鈕，可以by許多東西，有s的會(huì)知道所有element
el.click()  # 點(diǎn)擊

（二）輸入

? ? ? ? 想要輸入，需要先找到輸入框，輸入后使用回車鍵，或者點(diǎn)擊搜索按鈕（與上面一直）

1.找到輸入框

selenium讀取網(wǎng)頁(yè)數(shù)據(jù),python,爬蟲

2.在輸入框輸入"Python"

? ? ? ? 找到輸入框，find_element() 后使用 send_keys() 輸入

? ? ? ? 如果想按鍵盤的回車鍵，需要導(dǎo)包，使用Keys.xxx

from selenium.webdriver.common.keys import Keys

time.sleep(1)

web.find_element('xpath','//*[@id="search_input"]').send_keys('python',Keys.ENTER)

? ? ? ? ?Keys 可以操作很多鍵盤的按鍵

selenium讀取網(wǎng)頁(yè)數(shù)據(jù),python,爬蟲 ????????輸入前注意：上面選擇“全國(guó)”選項(xiàng)之后，若網(wǎng)站是動(dòng)態(tài)加載的，可能加載的比程序運(yùn)行的滯后，所以可能沒加載出來要找的內(nèi)容而導(dǎo)致程序報(bào)錯(cuò)，所以 sleep 一秒鐘

三、數(shù)據(jù)獲取

????????現(xiàn)在其實(shí)已經(jīng)獲取了想要的內(nèi)容，找某個(gè)元素提取內(nèi)容即可，觀察網(wǎng)頁(yè)結(jié)構(gòu)每個(gè)崗位信息都在這個(gè) list 里面，循環(huán)遍歷<div class="item__10RTO">

selenium讀取網(wǎng)頁(yè)數(shù)據(jù),python,爬蟲

? ? ? ? ?剛開始通過 tag name 查找，發(fā)現(xiàn)有很多個(gè) a 標(biāo)簽，就混亂了，于是根據(jù)復(fù)制的 xpath 結(jié)果來查找，也是用類似的方式繼續(xù)查找其他信息，這里我找到了薪資、公司名和崗位一些崗位信息

# for a in div_list:
#     job_name=a.find_elements('tag name','a')   # a標(biāo)簽
#     for n in range(len(job_name)):
#         print(job_name[n].text)

? ? ? ? 這里主要是通過屬性、標(biāo)簽名、xpath 的相對(duì)路徑完成對(duì)數(shù)據(jù)元素的定位

time.sleep(1)

div_list=web.find_elements('xpath','//*[@id="jobList"]/div[1]/div')

for a in div_list:
    job_name=a.find_element('id','openWinPostion').text
    price=a.find_element('class name','money__3Lkgq').text
    company_name=a.find_element('xpath','./div[1]/div[2]/div/a').text
    print(job_name,price,company_name)
    # .表示從當(dāng)前節(jié)點(diǎn)開始，//表示某個(gè)父節(jié)點(diǎn)的所有后代，*為任意節(jié)點(diǎn)的id屬性為 "openWinPostion" 的文本

? ? ? ? 這里的一點(diǎn) xpath 基礎(chǔ)：. 表示從當(dāng)前節(jié)點(diǎn)開始，// 表示某個(gè)父節(jié)點(diǎn)的所有后代，* 為任意節(jié)點(diǎn)的id屬性為為"openWinPostion" 的文本

????????成功

selenium讀取網(wǎng)頁(yè)數(shù)據(jù),python,爬蟲

四、特點(diǎn)

? ? ? ? selenium使用便捷，易于編寫，可以屏蔽許多js加密、解密問題，但是其運(yùn)行速度較慢，且一些網(wǎng)站會(huì)針對(duì)通過 selenium 方法進(jìn)行的訪問做反爬，所以使用的時(shí)候并不是萬能的

五、抓取拉鉤實(shí)例

# 啟動(dòng)
from selenium.webdriver import Chrome
from selenium.webdriver.common.keys import Keys
import time
# 1.創(chuàng)建瀏覽器對(duì)象
web=Chrome()
# 2.打開瀏覽器打開網(wǎng)址
web.get("http://lagou.com")

# 找到某個(gè)元素點(diǎn)擊
el=web.find_element('xpath','//*[@id="changeCityBox"]/p[1]/a')    # 這樣子找到按鈕，可以by許多東西，有s的會(huì)知道所有element
el.click()  # 點(diǎn)擊

time.sleep(1)

# 找到輸入框，用 send_keys 輸入 Python
# 想要輸入鍵盤按鈕指令需要導(dǎo)包
web.find_element('xpath','//*[@id="search_input"]').send_keys('python',Keys.ENTER)

time.sleep(1)

div_list=web.find_elements('xpath','//*[@id="jobList"]/div[1]/div')

for a in div_list:
    job_name=a.find_element('id','openWinPostion').text
    price=a.find_element('class name','money__3Lkgq').text
    company_name=a.find_element('xpath','./div[1]/div[2]/div/a').text
    print(job_name,price,company_name)
    # .表示從當(dāng)前節(jié)點(diǎn)開始，//表示某個(gè)父節(jié)點(diǎn)的所有后代，*為任意節(jié)點(diǎn)的id屬性為 "openWinPostion" 的文本

-------------------------------------------------------分割線---------------------------------------------------------------?

六、其他操作

? ? ? ? 以下為 selenium 的一些補(bǔ)充操作

（一）窗口切換

? ? ? ? 假設(shè)在搜索 "Python" 關(guān)鍵詞后到了新頁(yè)面后，想點(diǎn)擊進(jìn)入新窗口查看崗位描述，此時(shí)會(huì)開啟一個(gè)新窗口

selenium讀取網(wǎng)頁(yè)數(shù)據(jù),python,爬蟲

? ? ? ? 注意：不同于人類視角，對(duì)于 selenium 而言，打開窗口之后其視角仍然是上一個(gè)窗口，并沒有新頁(yè)面的內(nèi)容

????????那如何對(duì)新窗口的內(nèi)容進(jìn)行提取呢，要做的就是窗口切換

web.switch_to.window(web.window_handles[-1]) # 轉(zhuǎn)移到選項(xiàng)卡為-1窗口

? ? ? ? 上面這句代碼是核心，若沒有進(jìn)行切換程序?qū)⒅苯訄?bào)錯(cuò)，因?yàn)槌绦蜻B接的是原來的窗口?

? ? ? ? 這樣 selenium 就會(huì)調(diào)整到新窗口上，此時(shí)可以直接提取新窗口內(nèi)容了

job_detail=web.find_element('xpath','//*[@id="job_detail"]/dd[2]/div').text
print(job_detail)

? ? ? ? 成功

selenium讀取網(wǎng)頁(yè)數(shù)據(jù),python,爬蟲

? ? ? ? 處理完后可以將新窗口關(guān)閉，記得將?selenium 視角變更回來（也可使用 switch_to_default_content() 換到最開始切換前的窗口），此時(shí)可以嘗試打印原窗口的內(nèi)容，說明視角已經(jīng)切換回來了

web.close()

web.switch_to.window(web.window_handles[0])

? ? ? ? 如果在頁(yè)面中遇到了 iframe ，想要提取里面的內(nèi)容必須先拿到 iframe 然后切換視角到 iframe ，然后再拿到數(shù)據(jù)，用下面這個(gè)函數(shù)即可 selenium讀取網(wǎng)頁(yè)數(shù)據(jù),python,爬蟲

? ? ? ? 切換到 iframe 后進(jìn)行 find 就是以 iframe 里面為準(zhǔn)了

代碼

from selenium.webdriver import Chrome
from selenium.webdriver.common.keys import Keys
import time

# 創(chuàng)建瀏覽器對(duì)象
web = Chrome()
# 打開瀏覽器打開網(wǎng)址
web.get("http://lagou.com")

# 找到某個(gè)元素點(diǎn)擊
el = web.find_element('xpath', '//*[@id="changeCityBox"]/p[1]/a')
el.click()  # 點(diǎn)擊

time.sleep(1)

web.find_element('xpath', '//*[@id="search_input"]').send_keys('python', Keys.ENTER)

time.sleep(1)

web.find_element('xpath', '//*[@id="openWinPostion"]').click()

time.sleep(1)

web.switch_to.window(web.window_handles[-1])  # 轉(zhuǎn)移到選項(xiàng)卡為-1窗口

job_detail = web.find_element('xpath', '//*[@id="job_detail"]/dd[2]/div').text
print(job_detail)

web.close()

web.switch_to.window(web.window_handles[0])

print(web.find_element('xpath', '//*[@id="openWinPostion"]'))

（二）操作下拉列表/無頭瀏覽器

? ? ? ? 回到原來的那個(gè)票房網(wǎng)頁(yè)

selenium讀取網(wǎng)頁(yè)數(shù)據(jù),python,爬蟲

from selenium.webdriver import Chrome
web = Chrome()
web.get("https://www.endata.com.cn/BoxOffice/BO/Year/index.html")

????????打開瀏覽器，這里可以選擇年份（需要點(diǎn)擊），這是通過網(wǎng)頁(yè)的 select 標(biāo)簽存放的

selenium讀取網(wǎng)頁(yè)數(shù)據(jù),python,爬蟲

? ? ? ? 這個(gè)列表這個(gè)是通過 css 動(dòng)態(tài)加載的，不需要鼠標(biāo)點(diǎn)擊就能出現(xiàn)

selenium讀取網(wǎng)頁(yè)數(shù)據(jù),python,爬蟲

????????如何處理下拉框?qū)δ攴葸M(jìn)行篩選：先定位到下拉框，使用 selenium 拿到該節(jié)點(diǎn)

selenium讀取網(wǎng)頁(yè)數(shù)據(jù),python,爬蟲

? ? ? ? 在拿到該節(jié)點(diǎn)之后由于是一個(gè)下拉列表，需要對(duì)元素包裝一下，包裝成一個(gè)下拉菜單，這樣就可以調(diào)整 select 的位置了。

sel=Select(sel_el) # 把元素放進(jìn)去包裝成 Select 類型的東西
print(sel,type(sel),id(sel))

<selenium.webdriver.support.select.Select object at 0x00000269EFA82910> <class 'selenium.webdriver.support.select.Select'> 2654015596816
# 是一個(gè)select類型的對(duì)象

selenium讀取網(wǎng)頁(yè)數(shù)據(jù),python,爬蟲

? ? ? ? 如圖不同年份之間的選項(xiàng)是以不同的 option 存儲(chǔ)的，我想隨意切換所有選項(xiàng)如何做？幾乎固定的操作：

# 讓瀏覽器調(diào)整選項(xiàng)讓瀏覽器調(diào)整選項(xiàng)
for i in range(len(sel.options)): # 下拉框的所有選項(xiàng)的長(zhǎng)度，i是下拉框每個(gè)選項(xiàng)索引位置
    sel.select_by_index(i) # 按照索引進(jìn)行切換
    # time.sleep(3)
    movie_table=web.find_element('xpath','//*[@id="TableList"]/table')
    print(movie_table.text)

? ? ? ? 代碼解釋：根據(jù)下拉框選項(xiàng)的長(zhǎng)度循環(huán)，按索引進(jìn)行選擇，找到數(shù)據(jù)，打印

? ? ? ? 除了剛剛的索引，可以根據(jù)以下三種方法進(jìn)行下拉框選擇，區(qū)分三個(gè) by：

selenium讀取網(wǎng)頁(yè)數(shù)據(jù),python,爬蟲

selenium讀取網(wǎng)頁(yè)數(shù)據(jù),python,爬蟲

????????無頭瀏覽器就是讓瀏覽器在后臺(tái)默默運(yùn)行，如果不想看到瀏覽器運(yùn)行界面，可以對(duì)生成的web對(duì)象做配置文章來源地址http://www.zghlxwxcb.cn/news/detail-723068.html

from selenium.webdriver.chrome.options import Options
# 設(shè)置參數(shù)
opt=Options()
opt.add_argument("--headless") # 無頭
opt.add_argument("--disable-gpu") #不用顯卡
web = Chrome(options=opt) # 參數(shù)配置到瀏覽器中

代碼

from selenium.webdriver import Chrome
from selenium.webdriver.support.select import Select
import time
from selenium.webdriver.chrome.options import Options
# 設(shè)置參數(shù)
opt=Options()
opt.add_argument("--headless") # 無頭
opt.add_argument("--disable-gpu") #不用顯卡
web = Chrome(options=opt)

web.get("https://www.endata.com.cn/BoxOffice/BO/Year/index.html")

# 定位到下拉列表,拿到節(jié)點(diǎn)
sel_el=web.find_element('xpath','//*[@id="OptionDate"]')

time.sleep(1)

sel=Select(sel_el) # 把元素放進(jìn)去包裝成 Select 類型的東西

# 讓瀏覽器調(diào)整選項(xiàng)讓瀏覽器調(diào)整選項(xiàng)
for i in range(len(sel.options)):   # 下拉框的所有選項(xiàng)的長(zhǎng)度，i是下拉框每個(gè)選項(xiàng)索引位置
    sel.select_by_index(i) # 按照索引進(jìn)行切換
    # time.sleep(3)
    movie_table=web.find_element('xpath','//*[@id="TableList"]/table')
    print(movie_table.text)

到了這里，關(guān)于Python爬蟲——Selenium在獲取網(wǎng)頁(yè)數(shù)據(jù)方面的使用的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

Python爬蟲基礎(chǔ)（三）：使用Selenium動(dòng)態(tài)加載網(wǎng)頁(yè)
Python爬蟲基礎(chǔ)（一）：urllib庫(kù)的使用詳解 Python爬蟲基礎(chǔ)（二）：使用xpath與jsonpath解析爬取的數(shù)據(jù) Python爬蟲基礎(chǔ)（三）：使用Selenium動(dòng)態(tài)加載網(wǎng)頁(yè) Python爬蟲基礎(chǔ)（四）：使用更方便的requests庫(kù) Python爬蟲基礎(chǔ)（五）：使用scrapy框架（1）Selenium是一個(gè)用于Web應(yīng)用程序測(cè)試的工具。
2024年02月06日
瀏覽(30)
python 爬蟲熱身篇使用 requests 庫(kù)通過 HTTP 讀取網(wǎng)絡(luò)數(shù)據(jù)，使用 pandas 讀取網(wǎng)頁(yè)上的表格，使用 Selenium 模擬瀏覽器操作
在過去，收集數(shù)據(jù)是一項(xiàng)繁瑣的工作，有時(shí)非常昂貴。機(jī)器學(xué)習(xí)項(xiàng)目不能沒有數(shù)據(jù)。幸運(yùn)的是，我們現(xiàn)在在網(wǎng)絡(luò)上有很多數(shù)據(jù)可供我們使用。我們可以從 Web 復(fù)制數(shù)據(jù)來創(chuàng)建數(shù)據(jù)集。我們可以手動(dòng)下載文件并將其保存到磁盤。但是，我們可以通過自動(dòng)化數(shù)據(jù)收集來更有效地做
2023年04月08日
瀏覽(98)
python爬蟲篇：使用Selenium自動(dòng)打開小說網(wǎng)頁(yè)并自動(dòng)瀏覽
需求：python，pycharm，Selenium庫(kù)，火狐或ie瀏覽器文章目錄一、自動(dòng)打開小說網(wǎng)頁(yè)并瀏覽簡(jiǎn)單使用Selenium庫(kù)，實(shí)現(xiàn)對(duì)瀏覽器的自動(dòng)化操作一、自動(dòng)打開小說網(wǎng)頁(yè)并瀏覽方法：使用命令行下載或者在pycharm中下載使用命令行下載：打開cmd終端，輸入pip install selenium ?在pycharm中下
2024年02月10日
瀏覽(29)
關(guān)于使用Selenium獲取網(wǎng)頁(yè)控制臺(tái)的數(shù)據(jù)
需要獲取網(wǎng)頁(yè)的控制臺(tái)的數(shù)據(jù)，如下圖 Pycharm安裝 Selenium安裝 Selenium中的find_element方法 //供參考這里使用Chrome有一個(gè)技巧可以直接復(fù)制元素的信息到此我們已經(jīng)完成了一部分簡(jiǎn)單的自動(dòng)化操作了接下來我們需要記錄和獲取控制臺(tái)的信息，這部分參考可參考 jmeter-調(diào)用python腳本
2024年02月02日
瀏覽(20)
Selenium + Chrome WebDriver + JS：實(shí)現(xiàn)高級(jí)爬蟲技巧，獲取網(wǎng)頁(yè)響應(yīng)狀態(tài)碼！
隨著爬蟲技術(shù)的發(fā)展，我們使用requests庫(kù)能夠輕松獲取響應(yīng)狀態(tài)碼，但對(duì)于Selenium爬蟲，同樣可以迎刃而解。通過執(zhí)行JavaScript腳本，我們可以智能地捕獲網(wǎng)頁(yè)的響應(yīng)狀態(tài)碼，實(shí)現(xiàn)高級(jí)的爬蟲功能。在開始之前，確保你已正確安裝Selenium和Chrome WebDriver，并配置好環(huán)境變量。以下
2024年02月07日
瀏覽(17)
一個(gè)月學(xué)通Python(三十四)：使用Selenium模擬人工操作及獲取網(wǎng)頁(yè)內(nèi)容
結(jié)合自身經(jīng)驗(yàn)和內(nèi)部資料總結(jié)的Python教程，每天3-5章，最短1個(gè)月就能全方位的完成Python的學(xué)習(xí)并進(jìn)行實(shí)戰(zhàn)開發(fā)，學(xué)完了定能成為大佬！加油吧！卷起來！全部文章請(qǐng)?jiān)L問專欄：《Python全棧教程（0基礎(chǔ)）》再推薦一下最近熱更的：《大廠測(cè)試高頻面試題詳解》該專欄對(duì)近年
2024年02月13日
瀏覽(28)
Python 自動(dòng)獲取大批量excel數(shù)據(jù)并填寫到網(wǎng)頁(yè)表單（pandas；selenium）
自動(dòng)獲取大批量excel數(shù)據(jù)并填寫到網(wǎng)頁(yè)表單部分網(wǎng)頁(yè)獲取下拉列表點(diǎn)擊的方式有所差異這個(gè)請(qǐng)根據(jù)網(wǎng)頁(yè)源碼自做選擇一定要學(xué)會(huì)使用IPDB調(diào)試工具太好用了?。。?！可能需要pip update一下看提示很好解決沒有報(bào)錯(cuò)最好啦 Python真是太好用了辦公利器啊?。。?！
2024年02月12日
瀏覽(25)
爬蟲實(shí)戰(zhàn)（一）Python+selenium自動(dòng)化獲取數(shù)據(jù)存儲(chǔ)到Mysql中
??行話說得好，“爬蟲學(xué)得好，牢飯吃到飽！”哈哈博主是因這句話入的坑，不為別的就為邀大家一起鐵窗淚（bushi），本人雖小牛一只，但是喜愛搗鼓技術(shù)，有興趣的小伙伴們可以共同探討，也歡迎各位大佬們的指點(diǎn)，愿共同進(jìn)步！ ??這次計(jì)劃是翻墻爬取外網(wǎng)某網(wǎng)站
2024年01月17日
瀏覽(34)
python爬蟲進(jìn)階篇：Scrapy中使用Selenium模擬Firefox火狐瀏覽器爬取網(wǎng)頁(yè)信息
接著上一篇的筆記，Scrapy爬取普通無反爬、靜態(tài)頁(yè)面的網(wǎng)頁(yè)時(shí)可以順利爬取我們要的信息。但是大部分情況下我們要的數(shù)據(jù)所在的網(wǎng)頁(yè)它是動(dòng)態(tài)加載出來的（ajax請(qǐng)求后傳回前端頁(yè)面渲染、js調(diào)用function等）。這種情況下需要使用selenium進(jìn)行模擬人工操作瀏覽器行為，實(shí)現(xiàn)自動(dòng)化
2024年02月04日
瀏覽(101)
java爬蟲遇到網(wǎng)頁(yè)驗(yàn)證碼怎么辦？（使用selenium模擬瀏覽器并用python腳本解析驗(yàn)證碼圖片）
????????筆者這幾天在爬取數(shù)據(jù)的時(shí)候遇到了一個(gè)很鬧心的問題，就是在我爬取數(shù)據(jù)的時(shí)候遇到了驗(yàn)證碼，而這個(gè)驗(yàn)證碼又是動(dòng)態(tài)生成的，嘗試了很多方法都沒能繞開這個(gè)驗(yàn)證碼問題。 ? ? ? ? 我的解決方案是：使用selenium模擬瀏覽器行為，獲取到動(dòng)態(tài)生成的驗(yàn)證碼后用
2024年02月09日
瀏覽(175)

<th id="ttvrm"><tbody id="ttvrm"><rt id="ttvrm"></rt></tbody></th>