国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

python利用selenium獲取網(wǎng)頁head中的title

2年前作者：Autismmei分類：Toy博客閱讀(16)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了python利用selenium獲取網(wǎng)頁head中的title。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

工作中有批量獲取網(wǎng)頁head中title的應(yīng)用場(chǎng)景，實(shí)踐中遇到了一些問題，以此記錄一下。

通過檢查發(fā)現(xiàn)網(wǎng)頁的head中的title確實(shí)有文本，但是使用selenium的driver.title提取到了空字符串’’
接著使用driver.find_element(By.XPATH, ‘/html/head/title’).is_displayed()，得到False，說明title被隱藏了

進(jìn)一步檢查一下head，使用

js = "document.head"
print(driver.execute_script(js))# 得到None

js = "document.title"
print(driver.execute_script(js))# 同樣是None

說明head整個(gè)給隱藏了？

開始百度谷歌，嘗試使用了css選擇器，XPATH定位等，嘗試了bs4解析網(wǎng)頁，添加js 語句去使head displayed設(shè)置維True等等，都失敗了，得到同樣結(jié)果。

解決方法

最終找到了一個(gè)方法解決了問題。
代碼如下，利用XPATH先定位元素，然后get_attribute(“textContent”)可以獲得到隱藏的元素，前面的定位器應(yīng)該也可以改成自己所需要的其他定位。文章來源地址http://www.zghlxwxcb.cn/news/detail-535950.html

driver.find_element(By.XPATH, '/html/head/title').get_attribute("textContent")

完整代碼如下

# 返回網(wǎng)站名稱列表，數(shù)據(jù)來源列表
def get_site_name(urls,site_names):
    options = webdriver.ChromeOptions()
    options.page_load_strategy = 'none' # 我只要部分html元素，所以選擇不渲染全部html內(nèi)容
    driver = webdriver.Chrome('C:\\Program Files\\Google\\Chrome\\Application\\chromedriver.exe', options=options) # 自己的路徑
    driver.maximize_window() # 最大化窗口 
    
    # wait = WebDriverWait(driver, 5)
    names = []
    state = []
    for i in tqdm(range(len(urls))):
        url = urls[i]
        try:
            driver.get(url)
            # wait.until(driver.find_element(By.XPATH, '/html/head/title'))
            time.sleep(1) # 一定要sleep 1s，不然會(huì)找不到元素，也就是要等待網(wǎng)頁打開才行
            title = driver.find_element(By.XPATH, '/html/head/title').get_attribute("textContent")
            names.append(title)
            state.append(1) # 代表獲取成功
        except:
            names.append(site_names[i])
            state.append(0) # 代表獲取失敗
        
    return pd.DataFrame({'url':urls,'site_name':site_names,'title':names,'state':state})

到了這里，關(guān)于python利用selenium獲取網(wǎng)頁head中的title的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

利用Python和Selenium編程，實(shí)現(xiàn)定時(shí)自動(dòng)檢索特定網(wǎng)頁，發(fā)現(xiàn)特定網(wǎng)頁內(nèi)容發(fā)生變化后，向管理員發(fā)送提醒郵件（一)
? ? ? ? 要求爬取某單位網(wǎng)站，登錄后臺(tái)查看是否有新增“網(wǎng)友提問”，如果有新的提問，向特定郵箱發(fā)出提醒郵件。首先查看該網(wǎng)站的robots.txt文件，發(fā)現(xiàn)不存在該文件，由于未禁止，可用爬取取相關(guān)信息。查看是否有網(wǎng)友提問的操作流程如下。 1、登錄網(wǎng)站后臺(tái)管理頁面
2024年02月17日
瀏覽(31)
python 面向?qū)ο罄胹elenium【獲取某東商品信息】
用python程序和谷歌selenium插件獲取某東商品詳細(xì)信息【商品名稱、商品簡(jiǎn)介，超鏈接】利用selenium自動(dòng)化程序中的css頁面結(jié)構(gòu)索取來獲取詳細(xì)數(shù)據(jù) 關(guān)于谷歌selenium的安裝方法和使用方法第一步檢查自己谷歌瀏覽器的版本 1.1 找到設(shè)置：并鼠標(biāo)點(diǎn)擊進(jìn)入 1.2進(jìn)入設(shè)置選項(xiàng)后，下滑
2024年01月16日
瀏覽(14)
利用selenium獲取Chrome日志（Java版和Python版）
1.方式一（推薦優(yōu)先使用該方式） 2.方式二
2024年02月17日
瀏覽(23)
一個(gè)月學(xué)通Python(三十四)：使用Selenium模擬人工操作及獲取網(wǎng)頁內(nèi)容
結(jié)合自身經(jīng)驗(yàn)和內(nèi)部資料總結(jié)的Python教程，每天3-5章，最短1個(gè)月就能全方位的完成Python的學(xué)習(xí)并進(jìn)行實(shí)戰(zhàn)開發(fā)，學(xué)完了定能成為大佬！加油吧！卷起來！全部文章請(qǐng)?jiān)L問專欄：《Python全棧教程（0基礎(chǔ)）》再推薦一下最近熱更的：《大廠測(cè)試高頻面試題詳解》該專欄對(duì)近年
2024年02月13日
瀏覽(28)
Python 自動(dòng)獲取大批量excel數(shù)據(jù)并填寫到網(wǎng)頁表單（pandas；selenium）
自動(dòng)獲取大批量excel數(shù)據(jù)并填寫到網(wǎng)頁表單部分網(wǎng)頁獲取下拉列表點(diǎn)擊的方式有所差異這個(gè)請(qǐng)根據(jù)網(wǎng)頁源碼自做選擇一定要學(xué)會(huì)使用IPDB調(diào)試工具太好用了！?。。?可能需要pip update一下看提示很好解決沒有報(bào)錯(cuò)最好啦 Python真是太好用了辦公利器?。。。?！
2024年02月12日
瀏覽(25)
python通過selenium爬取網(wǎng)頁信息，python獲取瀏覽器請(qǐng)求內(nèi)容，控制已經(jīng)打開的瀏覽器
背景：通過python中直接get或者urlopen打開一些有延遲加載數(shù)據(jù)的網(wǎng)頁，會(huì)抓取不到部分信息。 1. 命令行打開chrome，并開啟調(diào)試端口 (前提，找到chrome安裝目錄，找到chrome.exe所在路徑，添加到環(huán)境變量中，例如我的是C:Program FilesGoogleChromeApplication) remote-debugging-port指定遠(yuǎn)程調(diào)試
2024年02月16日
瀏覽(97)
利用Python和Selenium獲取雪球網(wǎng)滬深上市公司日k線走勢(shì)圖
本文介紹作者如何爬取雪球網(wǎng)（https://xueqiu.com/）滬深股市滬深一覽中的上市公司日k線走勢(shì)圖并截圖保存至本地~ 歡迎關(guān)注作者公眾號(hào)，追蹤更多更新更有價(jià)值的內(nèi)容。項(xiàng)目用于獲取雪球網(wǎng)滬深股市滬深一覽列表中（圖1）上市公司的日K線圖（圖2）。圖1 滬深股市-滬深一覽
2024年04月10日
瀏覽(48)
Python Selenium如何下載網(wǎng)頁中的圖片到本地？（Base64編碼的圖片下載）
前言：? ? ? ?? ? ? ? ? 在網(wǎng)頁上，圖片有時(shí)會(huì)以Base64編碼的形式嵌入在HTML中，而不是作為單獨(dú)的文件提供。這種方式的優(yōu)點(diǎn)是可以減少HTTP請(qǐng)求的數(shù)量，因?yàn)閳D片數(shù)據(jù)直接包含在HTML中，不需要額外的請(qǐng)求來獲取圖片文件。這對(duì)于小圖片或圖標(biāo)特別有用，因?yàn)檫@些圖片的文
2024年04月17日
瀏覽(33)
利用Selenium輕松實(shí)現(xiàn)網(wǎng)頁截圖功能
引言對(duì)于初涉 Python 編程的開發(fā)者來說，自動(dòng)化工具的使用可以極大地提升工作效率。在眾多Python庫中， Selenium 是一個(gè)強(qiáng)大且易用的 Web 瀏覽器自動(dòng)化工具，它不僅可以模擬用戶行為進(jìn)行頁面交互，還能方便地實(shí)現(xiàn)網(wǎng)頁截圖功能。本文將一步步教大家如何借助Selenium和ChromeD
2024年04月10日
瀏覽(18)
使用selenium獲取網(wǎng)頁源碼
安裝好selenium和下載好WebDriver后即可測(cè)試。下面演示如何打開一個(gè)網(wǎng)址，并獲取該網(wǎng)站的源碼。基本步驟如下： 1. 導(dǎo)入webdriver from seleniumimport webdriver 2. 創(chuàng)建瀏覽器操作對(duì)象指定下載的webdriver文件路徑，我有將該文件復(fù)制到了當(dāng)前程序運(yùn)行的路徑下，所以直接指定該文件名，
2023年04月08日
瀏覽(20)

<mark id="utxyg"><em id="utxyg"></em></mark>

<mark id="utxyg"><em id="utxyg"><kbd id="utxyg"></kbd></em></mark>

<pre id="utxyg"></pre>