国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

python---------xpath提取數(shù)據(jù)------打破局限

這篇具有很好參考價(jià)值的文章主要介紹了python---------xpath提取數(shù)據(jù)------打破局限。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

作者前言

?歡迎小可愛們前來借鑒我的gtiee秦老大大 (qin-laoda) - Gitee.com

目錄

為什么要學(xué)習(xí)XPATH和LXML類庫(kù)
什么是XPATH
認(rèn)識(shí)XML
XML的節(jié)點(diǎn)關(guān)系
常?節(jié)點(diǎn)選擇?具
節(jié)點(diǎn)選擇語法
節(jié)點(diǎn)修飾語法
選擇未知節(jié)點(diǎn)
lxml庫(kù)
_____________________________________________________________

為什么要學(xué)習(xí)XPATH和LXML類庫(kù)

可以利? Xpath 來快速的定位特定元素以及獲取節(jié)點(diǎn)信息,我們可以理解 為對(duì) html 或 xml 形式的?本提取特定的內(nèi)容

什么是XPATH

Xpath 全稱是 xml path language ,Xpath是??在 HTML/XML ?檔中查 找信息的語?,可?來在HTML/XML ?檔中對(duì)元素和屬性進(jìn)?遍 歷, XPath 使?路徑表達(dá)式來選取 HTML/XML ?檔中的節(jié)點(diǎn)或者節(jié)點(diǎn)集

認(rèn)識(shí)XML

python---------xpath提取數(shù)據(jù)------打破局限

?XML的節(jié)點(diǎn)關(guān)系

節(jié)點(diǎn)的概念:每個(gè)XML的標(biāo)簽我們都稱之為節(jié)點(diǎn) ,其中最頂層的節(jié)點(diǎn)稱為根節(jié)
點(diǎn)
python---------xpath提取數(shù)據(jù)------打破局限

節(jié)點(diǎn)選擇語法

python---------xpath提取數(shù)據(jù)------打破局限

?節(jié)點(diǎn)修飾語法

python---------xpath提取數(shù)據(jù)------打破局限

選擇未知節(jié)點(diǎn)
python---------xpath提取數(shù)據(jù)------打破局限

?lxml庫(kù)

lxml 是 ?個(gè)HTML/XML的解析器,主要的功能是如何解析和提取 HTML/XML 數(shù)據(jù)。
利?etree.HTML,將字符串轉(zhuǎn)化為Element對(duì)象
lxml python 官??檔: http://lxml.de/index.html 可使? pip 安裝: pip install lxml (或通過wheel?式安裝)
lxml 可以?動(dòng)修正 html 代碼
安裝:
python---------xpath提取數(shù)據(jù)------打破局限

?下面我來爬取一個(gè)頁(yè)面來給小可愛們

代碼:

import requests
from lxml import etree



def parse_data(html):

    # 創(chuàng)建一個(gè)xpath對(duì)象
    e_html=etree.HTML(html)
    # print(e_html.xpath('//main[@id="c-626160000"]'))
    for i in e_html.xpath('//main[@id="c-626160000"]'):
        print("/n".join(i.xpath('./p//text()')).strip())
        return "".join(i.xpath('./p//text()')).strip()

def save_data(data):
    with open("小說.txt","w",encoding="utf-8")as f:
        f.write(data)



def parse_url(url,header):
    response = requests.get(url)
    return response


def main():
    """主要的業(yè)務(wù)邏輯"""
    # url
    url = "https://www.qidian.com/chapter/1021617576/626160000/"
    header = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36"
    }
    # 發(fā)送請(qǐng)求獲取響應(yīng)
    response = parse_url(url, header)
    # print(response.text)
    html = response.text
    # 數(shù)據(jù)的提取
    data = parse_data(html)
    # 保存
    save_data(data)


if __name__ == '__main__':
    main()

結(jié)果:

python---------xpath提取數(shù)據(jù)------打破局限

?總結(jié)

這里我簡(jiǎn)單的介紹了xpath的使用和語法,小可愛有哪些不明白的可以私聊了文章來源地址http://www.zghlxwxcb.cn/news/detail-492532.html

到了這里,關(guān)于python---------xpath提取數(shù)據(jù)------打破局限的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • python爬蟲數(shù)據(jù)解析xpath

    python爬蟲數(shù)據(jù)解析xpath

    下載地址:百度網(wǎng)盤 請(qǐng)輸入提取碼 第一步: 下載好文件后會(huì)得到一個(gè)沒有擴(kuò)展名的文件,重命名該文件將其改為.rar或者.zip等壓縮文件,解壓之后會(huì)得到一個(gè).crx文件和一個(gè).pem文件。新建一個(gè)文件夾,將這兩個(gè)文件放在該文件夾(本人將其命名為xpath-helper)內(nèi)。 第二步: 將

    2024年02月10日
    瀏覽(16)
  • python里面將接口返回的json格式數(shù)據(jù)寫入到數(shù)據(jù)庫(kù)的兩種方案及其局限性

    方案一: 使用MySQLdb或pymysql等Python MySQL數(shù)據(jù)庫(kù)連接庫(kù)將數(shù)據(jù)插入到MySQL數(shù)據(jù)庫(kù) 方案二: 使用pandas庫(kù)將JSON數(shù)據(jù)轉(zhuǎn)換為DataFrame對(duì)象,然后使用to_sql()方法將數(shù)據(jù)存入MySQL數(shù)據(jù)庫(kù)** 對(duì)整體的數(shù)據(jù)格式支持自定義處理,能處理較為復(fù)雜的數(shù)據(jù)格式 首先,我們使用json.load()函數(shù)將\\\"data.

    2024年02月14日
    瀏覽(20)
  • python爬取boss直聘數(shù)據(jù)(selenium+xpath)

    python爬取boss直聘數(shù)據(jù)(selenium+xpath)

    以boss直聘為目標(biāo)網(wǎng)站,主要目的是爬取下圖中的所有信息,并將爬取到的數(shù)據(jù)進(jìn)行持久化存儲(chǔ)。(可以存儲(chǔ)到數(shù)據(jù)庫(kù)中或進(jìn)行數(shù)據(jù)可視化分析用web網(wǎng)頁(yè)進(jìn)行展示,這里我就以csv形式存在了本地) python3.8 pycharm Firefox 環(huán)境安裝: pip install selenium 版本對(duì)照表(火狐的) https://firefox-s

    2024年02月07日
    瀏覽(15)
  • python爬蟲數(shù)據(jù)解析xpath、jsonpath,bs4

    python爬蟲數(shù)據(jù)解析xpath、jsonpath,bs4

    解析數(shù)據(jù)的方式大概有三種 xpath JsonPath BeautifulSoup 打開谷歌瀏覽器擴(kuò)展程序,打開開發(fā)者模式,拖入插件,重啟瀏覽器,ctrl+shift+x,打開插件頁(yè)面 安裝在python環(huán)境中的Scripts下邊,這里就是python庫(kù)的位置,例如我的地址為:E:pythonpython3.10.11Scripts 解析本地文件etree.parse( \\\'xx.

    2024年02月13日
    瀏覽(36)
  • Python網(wǎng)頁(yè)爬蟲爬取豆瓣Top250電影數(shù)據(jù)——Xpath數(shù)據(jù)解析

    Python網(wǎng)頁(yè)爬蟲爬取豆瓣Top250電影數(shù)據(jù)——Xpath數(shù)據(jù)解析

    1.1 查看原頁(yè)面信息 首先打開豆瓣Top250電影頁(yè)面,其網(wǎng)址是:https://movie.douban.com/top250。 可以發(fā)現(xiàn),該頁(yè)面展示的電影信息有中英文電影名、導(dǎo)演、主演、上映年份、國(guó)籍、電影類型、評(píng)分等。 下滑到頁(yè)面底部,發(fā)現(xiàn)第一頁(yè)有25部電影的數(shù)據(jù),并且可以點(diǎn)擊頁(yè)碼數(shù)實(shí)現(xiàn)頁(yè)面跳轉(zhuǎn)

    2024年02月05日
    瀏覽(29)
  • “jmeter使用xpath提取器獲取請(qǐng)求響應(yīng)中的value值作為下一個(gè)請(qǐng)求的輸入”案例

    使用jmeter5.2.1的xpath提取器獲取請(qǐng)求響應(yīng)結(jié)果中值作為下一個(gè)請(qǐng)求的輸入,并在Bean Shell后置處理器中編寫通過日志打印 XPath提取器 提取的內(nèi)容。 提取內(nèi)容為請(qǐng)求響應(yīng)結(jié)果中的 input type=\\\"hidden\\\" name=\\\"execution\\\" value=\\\"a6cd.........................................................\\\" ,需要提取的為 v

    2023年04月11日
    瀏覽(27)
  • Python爬蟲實(shí)戰(zhàn)——Lazada商品數(shù)據(jù)(selenium自動(dòng)化爬蟲,xpath定位)

    Python爬蟲實(shí)戰(zhàn)——Lazada商品數(shù)據(jù)(selenium自動(dòng)化爬蟲,xpath定位)

    ? ? ? ? 在此說明,這個(gè)項(xiàng)目是我第一次真正去爬的一個(gè)網(wǎng)站,里面寫的代碼我自己都看不下去,但是已經(jīng)不想花時(shí)間去重構(gòu)了,所以看個(gè)樂呵就好,要噴也可以(下手輕一點(diǎn))。這篇文算是記錄我的學(xué)習(xí)中出現(xiàn)的一些問題,不建議拿來學(xué)習(xí)和真拿我的代碼去爬Lazada的數(shù)據(jù),

    2024年02月02日
    瀏覽(22)
  • Python提取JSON格式數(shù)據(jù)

    Python提取JSON格式數(shù)據(jù)

    我們經(jīng)常會(huì)用到j(luò)son數(shù)據(jù),json數(shù)據(jù)格式主要是用來和不同語言之間進(jìn)行交互 比如你要給java端的提供數(shù)據(jù),你需要將自己的數(shù)據(jù)轉(zhuǎn)換為json格式才行 所以不管是提供給后端其他人,還是從API返回的數(shù)據(jù)結(jié)果,我們都需要封裝成json數(shù)據(jù)格式或者解析json數(shù)據(jù) json的數(shù)據(jù)格式類似于

    2023年04月24日
    瀏覽(17)
  • Python爬蟲|基礎(chǔ)知識(shí)點(diǎn)詳細(xì)匯總(requests、urllib、re、bs4、xpath、PyQuery、jsonpath、多線程、協(xié)程、數(shù)據(jù)保存、selenium)

    1. 請(qǐng)求數(shù)據(jù) ① requests (1) 基本使用 參數(shù) 對(duì)響應(yīng)內(nèi)容的操作 (2) Requests進(jìn)階:使用Session 為什么要用 Session? Session代表服務(wù)器與瀏覽器的一次會(huì)話過程,Session對(duì)象存儲(chǔ)了特定用戶會(huì)話所需的信息 例如:一定時(shí)間內(nèi)記錄賬號(hào)密碼 (自動(dòng)登錄) 可以加快 requests請(qǐng)求速度 需要客戶端登錄的

    2023年04月08日
    瀏覽(31)
  • Python從txt文件中提取特定數(shù)據(jù)

    本段代碼用于,想要從一段txt文件中只提取目標(biāo)數(shù)據(jù)的情況。 函數(shù)參數(shù)解釋: txt_path 文件路徑 epoch 這份文本文件中要提取出的數(shù)據(jù)個(gè)數(shù),默認(rèn)100 target 目標(biāo)數(shù)據(jù)的前綴 target_data_len 目標(biāo)數(shù)據(jù)的長(zhǎng)度,默認(rèn)為5 返回值,列表數(shù)據(jù) txt文檔內(nèi)容: 使用: 輸出:

    2024年02月11日
    瀏覽(22)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包