国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Python爬蟲——Selenium在獲取網(wǎng)頁(yè)數(shù)據(jù)方面的使用

這篇具有很好參考價(jià)值的文章主要介紹了Python爬蟲——Selenium在獲取網(wǎng)頁(yè)數(shù)據(jù)方面的使用。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

目錄

一、Selenium

(一)引入

?(二)啟動(dòng)瀏覽器

二、操作

(一)點(diǎn)擊

(二)輸入

三、數(shù)據(jù)獲取

四、特點(diǎn)

五、抓取拉鉤實(shí)例

六、其他操作

(一)窗口切換

代碼

(二)操作下拉列表/無頭瀏覽器

代碼


一、Selenium

selenium讀取網(wǎng)頁(yè)數(shù)據(jù),python,爬蟲

(一)引入

????????一個(gè)電影票房的網(wǎng)站里,響應(yīng)數(shù)據(jù)是一串完全看不懂的字符串,這些字串解開之后就是左邊的頁(yè)面。因?yàn)榻饷苓^程有可能很痛苦,那換個(gè)角度,能否不用 requests,而讓瀏覽器本身完成對(duì)這些數(shù)據(jù)的解密和執(zhí)行,直接顯示頁(yè)面呢

? ? ? ? 于是有思路:讓程序連接瀏覽器,讓瀏覽器完成復(fù)雜操作,此時(shí)我們只接收最終結(jié)果

????????Selenium 可以實(shí)現(xiàn),它本身是一款自動(dòng)化測(cè)試工具,可以打開瀏覽器,像人一樣操作瀏覽器,人們可以從 Selenium 中直接提取到網(wǎng)頁(yè)上的各種信息,因?yàn)榫W(wǎng)頁(yè)信息對(duì)于 Selenium 來說是透明的,其本質(zhì)就是運(yùn)行一個(gè)瀏覽器

安裝說明:

????????Selenium 的環(huán)境搭建需要安裝包、下載對(duì)應(yīng)的瀏覽器驅(qū)動(dòng)

? ? ? ? 對(duì)應(yīng)的瀏覽器驅(qū)動(dòng)放在 Python 解釋器所在的文件夾下并將名稱改為 chromedriver(Pycharm執(zhí)行結(jié)果前面的那個(gè)路徑)

selenium讀取網(wǎng)頁(yè)數(shù)據(jù),python,爬蟲

?(二)啟動(dòng)瀏覽器

# 導(dǎo)入并啟動(dòng)
from selenium.webdriver import Chrome
# 1.創(chuàng)建瀏覽器對(duì)象
web=Chrome()
# 2.打開瀏覽器打開網(wǎng)址
web.get("http://www.baidu.com")

????????啟動(dòng)成功,顯示正在受自動(dòng)測(cè)試軟件控制,使用最新版的谷歌瀏覽器和驅(qū)動(dòng)啟動(dòng)后會(huì)自動(dòng)關(guān)閉瀏覽器,暫時(shí)不確定對(duì)于獲取數(shù)據(jù)會(huì)不會(huì)有影響

selenium讀取網(wǎng)頁(yè)數(shù)據(jù),python,爬蟲

? ? ? ? 這樣就建立了程序和瀏覽器的關(guān)系,可以用程序使得瀏覽器跑起來(對(duì)于動(dòng)態(tài)加載的數(shù)據(jù)會(huì)很有效)?

二、操作

(一)點(diǎn)擊

? ? ? ? 打開網(wǎng)頁(yè),比如我想在這個(gè)網(wǎng)頁(yè)點(diǎn)擊“全國(guó)”這個(gè)按鈕,可以將 Xpath 復(fù)制過來

selenium讀取網(wǎng)頁(yè)數(shù)據(jù),python,爬蟲

? ? ? ? ?使用 find_element(有些版本是 find_element_by_xpath)

from selenium.webdriver import Chrome
# 1.創(chuàng)建瀏覽器對(duì)象
web=Chrome()
# 2.打開瀏覽器打開網(wǎng)址
web.get("http://lagou.com")

# 找到某個(gè)元素點(diǎn)擊
el=web.find_element('xpath','//*[@id="changeCityBox"]/p[1]/a')    
# 這樣子找到按鈕,可以by許多東西,有s的會(huì)知道所有element
el.click()  # 點(diǎn)擊

(二)輸入

? ? ? ? 想要輸入,需要先找到輸入框,輸入后使用回車鍵,或者點(diǎn)擊搜索按鈕(與上面一直)

1.找到輸入框

selenium讀取網(wǎng)頁(yè)數(shù)據(jù),python,爬蟲

2.在輸入框輸入"Python"

? ? ? ? 找到輸入框,find_element() 后使用 send_keys() 輸入

? ? ? ? 如果想按鍵盤的回車鍵,需要導(dǎo)包,使用Keys.xxx

from selenium.webdriver.common.keys import Keys

time.sleep(1)

web.find_element('xpath','//*[@id="search_input"]').send_keys('python',Keys.ENTER)

? ? ? ? ?Keys 可以操作很多鍵盤的按鍵

selenium讀取網(wǎng)頁(yè)數(shù)據(jù),python,爬蟲????????輸入前注意:上面選擇“全國(guó)”選項(xiàng)之后,若網(wǎng)站是動(dòng)態(tài)加載的,可能加載的比程序運(yùn)行的滯后,所以可能沒加載出來要找的內(nèi)容而導(dǎo)致程序報(bào)錯(cuò),所以 sleep 一秒鐘

三、數(shù)據(jù)獲取

????????現(xiàn)在其實(shí)已經(jīng)獲取了想要的內(nèi)容,找某個(gè)元素提取內(nèi)容即可,觀察網(wǎng)頁(yè)結(jié)構(gòu)每個(gè)崗位信息都在這個(gè) list 里面,循環(huán)遍歷<div class="item__10RTO">

selenium讀取網(wǎng)頁(yè)數(shù)據(jù),python,爬蟲

? ? ? ? ?剛開始通過 tag name 查找,發(fā)現(xiàn)有很多個(gè) a 標(biāo)簽,就混亂了,于是根據(jù)復(fù)制的 xpath 結(jié)果來查找,也是用類似的方式繼續(xù)查找其他信息,這里我找到了薪資、公司名和崗位一些崗位信息

# for a in div_list:
#     job_name=a.find_elements('tag name','a')   # a標(biāo)簽
#     for n in range(len(job_name)):
#         print(job_name[n].text)

? ? ? ? 這里主要是通過屬性、標(biāo)簽名、xpath 的相對(duì)路徑完成對(duì)數(shù)據(jù)元素的定位

time.sleep(1)

div_list=web.find_elements('xpath','//*[@id="jobList"]/div[1]/div')

for a in div_list:
    job_name=a.find_element('id','openWinPostion').text
    price=a.find_element('class name','money__3Lkgq').text
    company_name=a.find_element('xpath','./div[1]/div[2]/div/a').text
    print(job_name,price,company_name)
    # .表示從當(dāng)前節(jié)點(diǎn)開始,//表示某個(gè)父節(jié)點(diǎn)的所有后代,*為任意節(jié)點(diǎn)的id屬性為 "openWinPostion" 的文本

? ? ? ? 這里的一點(diǎn) xpath 基礎(chǔ):. 表示從當(dāng)前節(jié)點(diǎn)開始,// 表示某個(gè)父節(jié)點(diǎn)的所有后代,* 為任意節(jié)點(diǎn)的id屬性為為"openWinPostion" 的文本

????????成功

selenium讀取網(wǎng)頁(yè)數(shù)據(jù),python,爬蟲

四、特點(diǎn)

? ? ? ? selenium使用便捷,易于編寫,可以屏蔽許多js加密、解密問題,但是其運(yùn)行速度較慢,且一些網(wǎng)站會(huì)針對(duì)通過 selenium 方法進(jìn)行的訪問做反爬,所以使用的時(shí)候并不是萬能的

五、抓取拉鉤實(shí)例

# 啟動(dòng)
from selenium.webdriver import Chrome
from selenium.webdriver.common.keys import Keys
import time
# 1.創(chuàng)建瀏覽器對(duì)象
web=Chrome()
# 2.打開瀏覽器打開網(wǎng)址
web.get("http://lagou.com")

# 找到某個(gè)元素點(diǎn)擊
el=web.find_element('xpath','//*[@id="changeCityBox"]/p[1]/a')    # 這樣子找到按鈕,可以by許多東西,有s的會(huì)知道所有element
el.click()  # 點(diǎn)擊

time.sleep(1)

# 找到輸入框,用 send_keys 輸入 Python
# 想要輸入鍵盤按鈕指令需要導(dǎo)包
web.find_element('xpath','//*[@id="search_input"]').send_keys('python',Keys.ENTER)

time.sleep(1)

div_list=web.find_elements('xpath','//*[@id="jobList"]/div[1]/div')

for a in div_list:
    job_name=a.find_element('id','openWinPostion').text
    price=a.find_element('class name','money__3Lkgq').text
    company_name=a.find_element('xpath','./div[1]/div[2]/div/a').text
    print(job_name,price,company_name)
    # .表示從當(dāng)前節(jié)點(diǎn)開始,//表示某個(gè)父節(jié)點(diǎn)的所有后代,*為任意節(jié)點(diǎn)的id屬性為 "openWinPostion" 的文本

-------------------------------------------------------分割線---------------------------------------------------------------?

六、其他操作

? ? ? ? 以下為 selenium 的一些補(bǔ)充操作

(一)窗口切換

? ? ? ? 假設(shè)在搜索 "Python" 關(guān)鍵詞后到了新頁(yè)面后,想點(diǎn)擊進(jìn)入新窗口查看崗位描述,此時(shí)會(huì)開啟一個(gè)新窗口

selenium讀取網(wǎng)頁(yè)數(shù)據(jù),python,爬蟲selenium讀取網(wǎng)頁(yè)數(shù)據(jù),python,爬蟲

? ? ? ? 注意:不同于人類視角,對(duì)于 selenium 而言,打開窗口之后其視角仍然是上一個(gè)窗口,并沒有新頁(yè)面的內(nèi)容

????????那如何對(duì)新窗口的內(nèi)容進(jìn)行提取呢,要做的就是窗口切換

web.switch_to.window(web.window_handles[-1]) # 轉(zhuǎn)移到選項(xiàng)卡為-1窗口

? ? ? ? 上面這句代碼是核心,若沒有進(jìn)行切換程序?qū)⒅苯訄?bào)錯(cuò),因?yàn)槌绦蜻B接的是原來的窗口?

? ? ? ? 這樣 selenium 就會(huì)調(diào)整到新窗口上,此時(shí)可以直接提取新窗口內(nèi)容了

job_detail=web.find_element('xpath','//*[@id="job_detail"]/dd[2]/div').text
print(job_detail)

? ? ? ? 成功

selenium讀取網(wǎng)頁(yè)數(shù)據(jù),python,爬蟲

? ? ? ? 處理完后可以將新窗口關(guān)閉,記得將?selenium 視角變更回來(也可使用 switch_to_default_content() 換到最開始切換前的窗口),此時(shí)可以嘗試打印原窗口的內(nèi)容,說明視角已經(jīng)切換回來了

web.close()

web.switch_to.window(web.window_handles[0])

? ? ? ? 如果在頁(yè)面中遇到了 iframe ,想要提取里面的內(nèi)容必須先拿到 iframe 然后切換視角到 iframe ,然后再拿到數(shù)據(jù),用下面這個(gè)函數(shù)即可selenium讀取網(wǎng)頁(yè)數(shù)據(jù),python,爬蟲

? ? ? ? 切換到 iframe 后進(jìn)行 find 就是以 iframe 里面為準(zhǔn)了

代碼

from selenium.webdriver import Chrome
from selenium.webdriver.common.keys import Keys
import time

# 創(chuàng)建瀏覽器對(duì)象
web = Chrome()
# 打開瀏覽器打開網(wǎng)址
web.get("http://lagou.com")

# 找到某個(gè)元素點(diǎn)擊
el = web.find_element('xpath', '//*[@id="changeCityBox"]/p[1]/a')
el.click()  # 點(diǎn)擊

time.sleep(1)

web.find_element('xpath', '//*[@id="search_input"]').send_keys('python', Keys.ENTER)

time.sleep(1)

web.find_element('xpath', '//*[@id="openWinPostion"]').click()

time.sleep(1)

web.switch_to.window(web.window_handles[-1])  # 轉(zhuǎn)移到選項(xiàng)卡為-1窗口

job_detail = web.find_element('xpath', '//*[@id="job_detail"]/dd[2]/div').text
print(job_detail)

web.close()

web.switch_to.window(web.window_handles[0])

print(web.find_element('xpath', '//*[@id="openWinPostion"]'))

(二)操作下拉列表/無頭瀏覽器

? ? ? ? 回到原來的那個(gè)票房網(wǎng)頁(yè)

selenium讀取網(wǎng)頁(yè)數(shù)據(jù),python,爬蟲

from selenium.webdriver import Chrome
web = Chrome()
web.get("https://www.endata.com.cn/BoxOffice/BO/Year/index.html")

????????打開瀏覽器,這里可以選擇年份(需要點(diǎn)擊),這是通過網(wǎng)頁(yè)的 select 標(biāo)簽存放的

selenium讀取網(wǎng)頁(yè)數(shù)據(jù),python,爬蟲

? ? ? ? 這個(gè)列表這個(gè)是通過 css 動(dòng)態(tài)加載的,不需要鼠標(biāo)點(diǎn)擊就能出現(xiàn)

selenium讀取網(wǎng)頁(yè)數(shù)據(jù),python,爬蟲

????????如何處理下拉框?qū)δ攴葸M(jìn)行篩選:先定位到下拉框,使用 selenium 拿到該節(jié)點(diǎn)

selenium讀取網(wǎng)頁(yè)數(shù)據(jù),python,爬蟲

? ? ? ? 在拿到該節(jié)點(diǎn)之后由于是一個(gè)下拉列表,需要對(duì)元素包裝一下,包裝成一個(gè)下拉菜單,這樣就可以調(diào)整 select 的位置了。

sel=Select(sel_el) # 把元素放進(jìn)去包裝成 Select 類型的東西
print(sel,type(sel),id(sel))

<selenium.webdriver.support.select.Select object at 0x00000269EFA82910> <class 'selenium.webdriver.support.select.Select'> 2654015596816
# 是一個(gè)select類型的對(duì)象

selenium讀取網(wǎng)頁(yè)數(shù)據(jù),python,爬蟲

? ? ? ? 如圖不同年份之間的選項(xiàng)是以不同的 option 存儲(chǔ)的,我想隨意切換所有選項(xiàng)如何做?幾乎固定的操作:

# 讓瀏覽器調(diào)整選項(xiàng)讓瀏覽器調(diào)整選項(xiàng)
for i in range(len(sel.options)): # 下拉框的所有選項(xiàng)的長(zhǎng)度,i是下拉框每個(gè)選項(xiàng)索引位置
    sel.select_by_index(i) # 按照索引進(jìn)行切換
    # time.sleep(3)
    movie_table=web.find_element('xpath','//*[@id="TableList"]/table')
    print(movie_table.text)

? ? ? ? 代碼解釋:根據(jù)下拉框選項(xiàng)的長(zhǎng)度循環(huán),按索引進(jìn)行選擇,找到數(shù)據(jù),打印

? ? ? ? 除了剛剛的索引,可以根據(jù)以下三種方法進(jìn)行下拉框選擇,區(qū)分三個(gè) by:

selenium讀取網(wǎng)頁(yè)數(shù)據(jù),python,爬蟲

selenium讀取網(wǎng)頁(yè)數(shù)據(jù),python,爬蟲

????????無頭瀏覽器就是讓瀏覽器在后臺(tái)默默運(yùn)行,如果不想看到瀏覽器運(yùn)行界面,可以對(duì)生成的web對(duì)象做配置文章來源地址http://www.zghlxwxcb.cn/news/detail-723068.html

from selenium.webdriver.chrome.options import Options
# 設(shè)置參數(shù)
opt=Options()
opt.add_argument("--headless") # 無頭
opt.add_argument("--disable-gpu") #不用顯卡
web = Chrome(options=opt) # 參數(shù)配置到瀏覽器中

代碼

from selenium.webdriver import Chrome
from selenium.webdriver.support.select import Select
import time
from selenium.webdriver.chrome.options import Options
# 設(shè)置參數(shù)
opt=Options()
opt.add_argument("--headless") # 無頭
opt.add_argument("--disable-gpu") #不用顯卡
web = Chrome(options=opt)

web.get("https://www.endata.com.cn/BoxOffice/BO/Year/index.html")

# 定位到下拉列表,拿到節(jié)點(diǎn)
sel_el=web.find_element('xpath','//*[@id="OptionDate"]')

time.sleep(1)

sel=Select(sel_el) # 把元素放進(jìn)去包裝成 Select 類型的東西

# 讓瀏覽器調(diào)整選項(xiàng)讓瀏覽器調(diào)整選項(xiàng)
for i in range(len(sel.options)):   # 下拉框的所有選項(xiàng)的長(zhǎng)度,i是下拉框每個(gè)選項(xiàng)索引位置
    sel.select_by_index(i) # 按照索引進(jìn)行切換
    # time.sleep(3)
    movie_table=web.find_element('xpath','//*[@id="TableList"]/table')
    print(movie_table.text)

到了這里,關(guān)于Python爬蟲——Selenium在獲取網(wǎng)頁(yè)數(shù)據(jù)方面的使用的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • Python爬蟲基礎(chǔ)(三):使用Selenium動(dòng)態(tài)加載網(wǎng)頁(yè)

    Python爬蟲基礎(chǔ)(三):使用Selenium動(dòng)態(tài)加載網(wǎng)頁(yè)

    Python爬蟲基礎(chǔ)(一):urllib庫(kù)的使用詳解 Python爬蟲基礎(chǔ)(二):使用xpath與jsonpath解析爬取的數(shù)據(jù) Python爬蟲基礎(chǔ)(三):使用Selenium動(dòng)態(tài)加載網(wǎng)頁(yè) Python爬蟲基礎(chǔ)(四):使用更方便的requests庫(kù) Python爬蟲基礎(chǔ)(五):使用scrapy框架 (1)Selenium是一個(gè)用于Web應(yīng)用程序測(cè)試的工具。

    2024年02月06日
    瀏覽(30)
  • python 爬蟲熱身篇 使用 requests 庫(kù)通過 HTTP 讀取網(wǎng)絡(luò)數(shù)據(jù),使用 pandas 讀取網(wǎng)頁(yè)上的表格,使用 Selenium 模擬瀏覽器操作

    python 爬蟲熱身篇 使用 requests 庫(kù)通過 HTTP 讀取網(wǎng)絡(luò)數(shù)據(jù),使用 pandas 讀取網(wǎng)頁(yè)上的表格,使用 Selenium 模擬瀏覽器操作

    在過去,收集數(shù)據(jù)是一項(xiàng)繁瑣的工作,有時(shí)非常昂貴。機(jī)器學(xué)習(xí)項(xiàng)目不能沒有數(shù)據(jù)。幸運(yùn)的是,我們現(xiàn)在在網(wǎng)絡(luò)上有很多數(shù)據(jù)可供我們使用。我們可以從 Web 復(fù)制數(shù)據(jù)來創(chuàng)建數(shù)據(jù)集。我們可以手動(dòng)下載文件并將其保存到磁盤。但是,我們可以通過自動(dòng)化數(shù)據(jù)收集來更有效地做

    2023年04月08日
    瀏覽(98)
  • python爬蟲篇:使用Selenium自動(dòng)打開小說網(wǎng)頁(yè)并自動(dòng)瀏覽

    python爬蟲篇:使用Selenium自動(dòng)打開小說網(wǎng)頁(yè)并自動(dòng)瀏覽

    需求:python,pycharm,Selenium庫(kù),火狐或ie瀏覽器 文章目錄 一、 自動(dòng)打開小說網(wǎng)頁(yè)并瀏覽 簡(jiǎn)單使用Selenium庫(kù),實(shí)現(xiàn)對(duì)瀏覽器的自動(dòng)化操作 一、自動(dòng)打開小說網(wǎng)頁(yè)并瀏覽 方法:使用命令行下載或者在pycharm中下載 使用命令行下載:打開cmd終端,輸入pip install selenium ?在pycharm中下

    2024年02月10日
    瀏覽(29)
  • 關(guān)于使用Selenium獲取網(wǎng)頁(yè)控制臺(tái)的數(shù)據(jù)

    關(guān)于使用Selenium獲取網(wǎng)頁(yè)控制臺(tái)的數(shù)據(jù)

    需要獲取網(wǎng)頁(yè)的控制臺(tái)的數(shù)據(jù),如下圖 Pycharm安裝 Selenium安裝 Selenium中的find_element方法 //供參考 這里使用Chrome有一個(gè)技巧可以直接復(fù)制元素的信息 到此我們已經(jīng)完成了一部分簡(jiǎn)單的自動(dòng)化操作了 接下來我們需要記錄和獲取控制臺(tái)的信息,這部分參考可參考 jmeter-調(diào)用python腳本

    2024年02月02日
    瀏覽(20)
  • Selenium + Chrome WebDriver + JS:實(shí)現(xiàn)高級(jí)爬蟲技巧,獲取網(wǎng)頁(yè)響應(yīng)狀態(tài)碼!

    隨著爬蟲技術(shù)的發(fā)展,我們使用requests庫(kù)能夠輕松獲取響應(yīng)狀態(tài)碼,但對(duì)于Selenium爬蟲,同樣可以迎刃而解。通過執(zhí)行JavaScript腳本,我們可以智能地捕獲網(wǎng)頁(yè)的響應(yīng)狀態(tài)碼,實(shí)現(xiàn)高級(jí)的爬蟲功能。 在開始之前,確保你已正確安裝Selenium和Chrome WebDriver,并配置好環(huán)境變量。 以下

    2024年02月07日
    瀏覽(17)
  • 一個(gè)月學(xué)通Python(三十四):使用Selenium模擬人工操作及獲取網(wǎng)頁(yè)內(nèi)容

    結(jié)合自身經(jīng)驗(yàn)和內(nèi)部資料總結(jié)的Python教程,每天3-5章,最短1個(gè)月就能全方位的完成Python的學(xué)習(xí)并進(jìn)行實(shí)戰(zhàn)開發(fā),學(xué)完了定能成為大佬!加油吧!卷起來! 全部文章請(qǐng)?jiān)L問專欄:《Python全棧教程(0基礎(chǔ))》 再推薦一下最近熱更的:《大廠測(cè)試高頻面試題詳解》 該專欄對(duì)近年

    2024年02月13日
    瀏覽(28)
  • Python 自動(dòng)獲取大批量excel數(shù)據(jù)并填寫到網(wǎng)頁(yè)表單(pandas;selenium)

    Python 自動(dòng)獲取大批量excel數(shù)據(jù)并填寫到網(wǎng)頁(yè)表單(pandas;selenium)

    自動(dòng)獲取大批量excel數(shù)據(jù)并填寫到網(wǎng)頁(yè)表單 部分網(wǎng)頁(yè)獲取下拉列表點(diǎn)擊的方式有所差異 這個(gè)請(qǐng)根據(jù)網(wǎng)頁(yè)源碼自做選擇 一定要學(xué)會(huì)使用IPDB調(diào)試工具 太好用了?。。?! 可能需要pip update一下 看提示 很好解決 沒有報(bào)錯(cuò)最好啦 Python真是太好用了 辦公利器啊?。。?!

    2024年02月12日
    瀏覽(25)
  • 爬蟲實(shí)戰(zhàn)(一)Python+selenium自動(dòng)化獲取數(shù)據(jù)存儲(chǔ)到Mysql中

    爬蟲實(shí)戰(zhàn)(一)Python+selenium自動(dòng)化獲取數(shù)據(jù)存儲(chǔ)到Mysql中

    ??行話說得好,“爬蟲學(xué)得好,牢飯吃到飽!”哈哈博主是因這句話入的坑,不為別的就為邀大家一起鐵窗淚(bushi),本人雖小牛一只,但是喜愛搗鼓技術(shù),有興趣的小伙伴們可以共同探討,也歡迎各位大佬們的指點(diǎn),愿共同進(jìn)步! ??這次計(jì)劃是翻墻爬取外網(wǎng)某網(wǎng)站

    2024年01月17日
    瀏覽(34)
  • python爬蟲進(jìn)階篇:Scrapy中使用Selenium模擬Firefox火狐瀏覽器爬取網(wǎng)頁(yè)信息

    接著上一篇的筆記,Scrapy爬取普通無反爬、靜態(tài)頁(yè)面的網(wǎng)頁(yè)時(shí)可以順利爬取我們要的信息。但是大部分情況下我們要的數(shù)據(jù)所在的網(wǎng)頁(yè)它是動(dòng)態(tài)加載出來的(ajax請(qǐng)求后傳回前端頁(yè)面渲染、js調(diào)用function等)。這種情況下需要使用selenium進(jìn)行模擬人工操作瀏覽器行為,實(shí)現(xiàn)自動(dòng)化

    2024年02月04日
    瀏覽(101)
  • java爬蟲遇到網(wǎng)頁(yè)驗(yàn)證碼怎么辦?(使用selenium模擬瀏覽器并用python腳本解析驗(yàn)證碼圖片)

    ????????筆者這幾天在爬取數(shù)據(jù)的時(shí)候遇到了一個(gè)很鬧心的問題,就是在我爬取數(shù)據(jù)的時(shí)候遇到了驗(yàn)證碼,而這個(gè)驗(yàn)證碼又是動(dòng)態(tài)生成的,嘗試了很多方法都沒能繞開這個(gè)驗(yàn)證碼問題。 ? ? ? ? 我的解決方案是:使用selenium模擬瀏覽器行為,獲取到動(dòng)態(tài)生成的驗(yàn)證碼后用

    2024年02月09日
    瀏覽(175)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包