国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

python利用selenium獲取網(wǎng)頁head中的title

這篇具有很好參考價(jià)值的文章主要介紹了python利用selenium獲取網(wǎng)頁head中的title。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

工作中有批量獲取網(wǎng)頁head中title的應(yīng)用場(chǎng)景,實(shí)踐中遇到了一些問題,以此記錄一下。

  1. 通過檢查發(fā)現(xiàn)網(wǎng)頁的head中的title確實(shí)有文本,但是使用selenium的driver.title提取到了空字符串’’

  2. 接著使用driver.find_element(By.XPATH, ‘/html/head/title’).is_displayed(),得到False,說明title被隱藏了

  3. 進(jìn)一步檢查一下head,使用

    js = "document.head"
    print(driver.execute_script(js))# 得到None
    
    js = "document.title"
    print(driver.execute_script(js))# 同樣是None
    

    說明head整個(gè)給隱藏了?

  4. 開始百度谷歌,嘗試使用了css選擇器,XPATH定位等,嘗試了bs4解析網(wǎng)頁,添加js 語句去使head displayed設(shè)置維True等等,都失敗了,得到同樣結(jié)果。

解決方法

最終找到了一個(gè)方法解決了問題。
代碼如下,利用XPATH先定位元素,然后get_attribute(“textContent”)可以獲得到隱藏的元素,前面的定位器應(yīng)該也可以改成自己所需要的其他定位。文章來源地址http://www.zghlxwxcb.cn/news/detail-535950.html

driver.find_element(By.XPATH, '/html/head/title').get_attribute("textContent")

完整代碼如下

# 返回網(wǎng)站名稱列表,數(shù)據(jù)來源列表
def get_site_name(urls,site_names):
    options = webdriver.ChromeOptions()
    options.page_load_strategy = 'none' # 我只要部分html元素,所以選擇不渲染全部html內(nèi)容
    driver = webdriver.Chrome('C:\\Program Files\\Google\\Chrome\\Application\\chromedriver.exe', options=options) # 自己的路徑
    driver.maximize_window() # 最大化窗口 
    
    # wait = WebDriverWait(driver, 5)
    names = []
    state = []
    for i in tqdm(range(len(urls))):
        url = urls[i]
        try:
            driver.get(url)
            # wait.until(driver.find_element(By.XPATH, '/html/head/title'))
            time.sleep(1) # 一定要sleep 1s,不然會(huì)找不到元素,也就是要等待網(wǎng)頁打開才行
            title = driver.find_element(By.XPATH, '/html/head/title').get_attribute("textContent")
            names.append(title)
            state.append(1) # 代表獲取成功
        except:
            names.append(site_names[i])
            state.append(0) # 代表獲取失敗
        
    return pd.DataFrame({'url':urls,'site_name':site_names,'title':names,'state':state})

到了這里,關(guān)于python利用selenium獲取網(wǎng)頁head中的title的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 利用Python和Selenium編程,實(shí)現(xiàn)定時(shí)自動(dòng)檢索特定網(wǎng)頁,發(fā)現(xiàn)特定網(wǎng)頁內(nèi)容發(fā)生變化后,向管理員發(fā)送提醒郵件(一)

    利用Python和Selenium編程,實(shí)現(xiàn)定時(shí)自動(dòng)檢索特定網(wǎng)頁,發(fā)現(xiàn)特定網(wǎng)頁內(nèi)容發(fā)生變化后,向管理員發(fā)送提醒郵件(一)

    ? ? ? ? 要求爬取某單位網(wǎng)站,登錄后臺(tái)查看是否有新增“網(wǎng)友提問”,如果有新的提問,向特定郵箱發(fā)出提醒郵件。 首先查看該網(wǎng)站的robots.txt文件,發(fā)現(xiàn)不存在該文件,由于未禁止,可用爬取取相關(guān)信息。 查看是否有網(wǎng)友提問的操作流程如下。 1、登錄網(wǎng)站后臺(tái)管理頁面

    2024年02月17日
    瀏覽(31)
  • python 面向?qū)ο罄胹elenium【獲取某東商品信息】

    python 面向?qū)ο罄胹elenium【獲取某東商品信息】

    用python程序和谷歌selenium插件獲取某東商品詳細(xì)信息【商品名稱、商品簡(jiǎn)介,超鏈接】 利用selenium自動(dòng)化程序 中的css頁面結(jié)構(gòu)索取來獲取詳細(xì)數(shù)據(jù) 關(guān)于谷歌selenium的安裝方法和使用方法 第一步檢查自己谷歌瀏覽器的版本 1.1 找到設(shè)置:并鼠標(biāo)點(diǎn)擊進(jìn)入 1.2進(jìn)入設(shè)置選項(xiàng)后,下滑

    2024年01月16日
    瀏覽(14)
  • 利用selenium獲取Chrome日志(Java版和Python版)

    1.方式一(推薦優(yōu)先使用該方式) 2.方式二

    2024年02月17日
    瀏覽(23)
  • 一個(gè)月學(xué)通Python(三十四):使用Selenium模擬人工操作及獲取網(wǎng)頁內(nèi)容

    結(jié)合自身經(jīng)驗(yàn)和內(nèi)部資料總結(jié)的Python教程,每天3-5章,最短1個(gè)月就能全方位的完成Python的學(xué)習(xí)并進(jìn)行實(shí)戰(zhàn)開發(fā),學(xué)完了定能成為大佬!加油吧!卷起來! 全部文章請(qǐng)?jiān)L問專欄:《Python全棧教程(0基礎(chǔ))》 再推薦一下最近熱更的:《大廠測(cè)試高頻面試題詳解》 該專欄對(duì)近年

    2024年02月13日
    瀏覽(28)
  • Python 自動(dòng)獲取大批量excel數(shù)據(jù)并填寫到網(wǎng)頁表單(pandas;selenium)

    Python 自動(dòng)獲取大批量excel數(shù)據(jù)并填寫到網(wǎng)頁表單(pandas;selenium)

    自動(dòng)獲取大批量excel數(shù)據(jù)并填寫到網(wǎng)頁表單 部分網(wǎng)頁獲取下拉列表點(diǎn)擊的方式有所差異 這個(gè)請(qǐng)根據(jù)網(wǎng)頁源碼自做選擇 一定要學(xué)會(huì)使用IPDB調(diào)試工具 太好用了!?。。?可能需要pip update一下 看提示 很好解決 沒有報(bào)錯(cuò)最好啦 Python真是太好用了 辦公利器?。。。?!

    2024年02月12日
    瀏覽(25)
  • python通過selenium爬取網(wǎng)頁信息,python獲取瀏覽器請(qǐng)求內(nèi)容,控制已經(jīng)打開的瀏覽器

    python通過selenium爬取網(wǎng)頁信息,python獲取瀏覽器請(qǐng)求內(nèi)容,控制已經(jīng)打開的瀏覽器

    背景:通過python中直接get或者urlopen打開一些有延遲加載數(shù)據(jù)的網(wǎng)頁,會(huì)抓取不到部分信息。 1. 命令行打開chrome,并開啟調(diào)試端口 (前提,找到chrome安裝目錄,找到chrome.exe所在路徑,添加到環(huán)境變量中,例如我的是C:Program FilesGoogleChromeApplication) remote-debugging-port指定遠(yuǎn)程調(diào)試

    2024年02月16日
    瀏覽(97)
  • 利用Python和Selenium獲取雪球網(wǎng)滬深上市公司日k線走勢(shì)圖

    利用Python和Selenium獲取雪球網(wǎng)滬深上市公司日k線走勢(shì)圖

    本文介紹作者如何爬取雪球網(wǎng)(https://xueqiu.com/)滬深股市滬深一覽中的上市公司日k線走勢(shì)圖并截圖保存至本地~ 歡迎關(guān)注作者公眾號(hào),追蹤更多更新更有價(jià)值的內(nèi)容。 項(xiàng)目用于獲取雪球網(wǎng)滬深股市滬深一覽列表中(圖1)上市公司的日K線圖(圖2)。 圖1 滬深股市-滬深一覽

    2024年04月10日
    瀏覽(48)
  • Python Selenium如何下載網(wǎng)頁中的圖片到本地?(Base64編碼的圖片下載)

    Python Selenium如何下載網(wǎng)頁中的圖片到本地?(Base64編碼的圖片下載)

    前言:? ? ? ?? ? ? ? ? 在網(wǎng)頁上,圖片有時(shí)會(huì)以Base64編碼的形式嵌入在HTML中,而不是作為單獨(dú)的文件提供。這種方式的優(yōu)點(diǎn)是可以減少HTTP請(qǐng)求的數(shù)量,因?yàn)閳D片數(shù)據(jù)直接包含在HTML中,不需要額外的請(qǐng)求來獲取圖片文件。這對(duì)于小圖片或圖標(biāo)特別有用,因?yàn)檫@些圖片的文

    2024年04月17日
    瀏覽(33)
  • 利用Selenium輕松實(shí)現(xiàn)網(wǎng)頁截圖功能

    利用Selenium輕松實(shí)現(xiàn)網(wǎng)頁截圖功能

    引言 對(duì)于初涉 Python 編程的開發(fā)者來說,自動(dòng)化工具的使用可以極大地提升工作效率。在眾多Python庫中, Selenium 是一個(gè)強(qiáng)大且易用的 Web 瀏覽器自動(dòng)化工具,它不僅可以模擬用戶行為進(jìn)行頁面交互,還能方便地實(shí)現(xiàn)網(wǎng)頁截圖功能。本文將一步步教大家如何借助Selenium和ChromeD

    2024年04月10日
    瀏覽(18)
  • 使用selenium獲取網(wǎng)頁源碼

    使用selenium獲取網(wǎng)頁源碼

    安裝好selenium和下載好WebDriver后即可測(cè)試。下面演示如何打開一個(gè)網(wǎng)址,并獲取該網(wǎng)站的源碼。 基本步驟如下: 1. 導(dǎo)入webdriver from seleniumimport webdriver 2. 創(chuàng)建瀏覽器操作對(duì)象 指定下載的webdriver文件路徑,我有將該文件復(fù)制到了當(dāng)前程序運(yùn)行的路徑下,所以直接指定該文件名,

    2023年04月08日
    瀏覽(20)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包