python---------xpath提取數(shù)據(jù)------打破局限

2年前作者：老秦包你會(huì)分類：Toy博客閱讀(18)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了python---------xpath提取數(shù)據(jù)------打破局限。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

作者前言

?歡迎小可愛們前來借鑒我的gtiee秦老大大 (qin-laoda) - Gitee.com

為什么要學(xué)習(xí)XPATH和LXML類庫(kù)

可以利? Xpath 來快速的定位特定元素以及獲取節(jié)點(diǎn)信息,我們可以理解為對(duì) html 或 xml 形式的?本提取特定的內(nèi)容

什么是XPATH

Xpath 全稱是 xml path language ,Xpath是??在 HTML/XML ?檔中查找信息的語?，可?來在HTML/XML ?檔中對(duì)元素和屬性進(jìn)?遍歷， XPath 使?路徑表達(dá)式來選取 HTML/XML ?檔中的節(jié)點(diǎn)或者節(jié)點(diǎn)集

認(rèn)識(shí)XML

python---------xpath提取數(shù)據(jù)------打破局限

?XML的節(jié)點(diǎn)關(guān)系

節(jié)點(diǎn)的概念：每個(gè)XML的標(biāo)簽我們都稱之為節(jié)點(diǎn) ，其中最頂層的節(jié)點(diǎn)稱為根節(jié)

點(diǎn)

節(jié)點(diǎn)選擇語法

python---------xpath提取數(shù)據(jù)------打破局限

?節(jié)點(diǎn)修飾語法

python---------xpath提取數(shù)據(jù)------打破局限

選擇未知節(jié)點(diǎn)

?lxml庫(kù)

lxml 是 ?個(gè)HTML/XML的解析器，主要的功能是如何解析和提取 HTML/XML 數(shù)據(jù)。

利?etree.HTML，將字符串轉(zhuǎn)化為Element對(duì)象

lxml python 官??檔： http://lxml.de/index.html 可使? pip 安裝： pip install lxml （或通過wheel?式安裝）

lxml 可以?動(dòng)修正 html 代碼

安裝:

?下面我來爬取一個(gè)頁(yè)面來給小可愛們

代碼:

import requests
from lxml import etree



def parse_data(html):

    # 創(chuàng)建一個(gè)xpath對(duì)象
    e_html=etree.HTML(html)
    # print(e_html.xpath('//main[@id="c-626160000"]'))
    for i in e_html.xpath('//main[@id="c-626160000"]'):
        print("/n".join(i.xpath('./p//text()')).strip())
        return "".join(i.xpath('./p//text()')).strip()

def save_data(data):
    with open("小說.txt","w",encoding="utf-8")as f:
        f.write(data)



def parse_url(url,header):
    response = requests.get(url)
    return response


def main():
    """主要的業(yè)務(wù)邏輯"""
    # url
    url = "https://www.qidian.com/chapter/1021617576/626160000/"
    header = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36"
    }
    # 發(fā)送請(qǐng)求獲取響應(yīng)
    response = parse_url(url, header)
    # print(response.text)
    html = response.text
    # 數(shù)據(jù)的提取
    data = parse_data(html)
    # 保存
    save_data(data)


if __name__ == '__main__':
    main()

結(jié)果:

python---------xpath提取數(shù)據(jù)------打破局限

?總結(jié)

這里我簡(jiǎn)單的介紹了xpath的使用和語法,小可愛有哪些不明白的可以私聊了文章來源地址http://www.zghlxwxcb.cn/news/detail-492532.html

到了這里，關(guān)于python---------xpath提取數(shù)據(jù)------打破局限的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

python爬蟲數(shù)據(jù)解析xpath
下載地址：百度網(wǎng)盤請(qǐng)輸入提取碼第一步：下載好文件后會(huì)得到一個(gè)沒有擴(kuò)展名的文件，重命名該文件將其改為.rar或者.zip等壓縮文件，解壓之后會(huì)得到一個(gè).crx文件和一個(gè).pem文件。新建一個(gè)文件夾，將這兩個(gè)文件放在該文件夾（本人將其命名為xpath-helper）內(nèi)。第二步：將
2024年02月10日
瀏覽(16)
python里面將接口返回的json格式數(shù)據(jù)寫入到數(shù)據(jù)庫(kù)的兩種方案及其局限性
方案一：使用MySQLdb或pymysql等Python MySQL數(shù)據(jù)庫(kù)連接庫(kù)將數(shù)據(jù)插入到MySQL數(shù)據(jù)庫(kù) 方案二：使用pandas庫(kù)將JSON數(shù)據(jù)轉(zhuǎn)換為DataFrame對(duì)象，然后使用to_sql()方法將數(shù)據(jù)存入MySQL數(shù)據(jù)庫(kù)** 對(duì)整體的數(shù)據(jù)格式支持自定義處理，能處理較為復(fù)雜的數(shù)據(jù)格式首先，我們使用json.load()函數(shù)將\\\"data.
2024年02月14日
瀏覽(20)
python爬取boss直聘數(shù)據(jù)(selenium+xpath)
以boss直聘為目標(biāo)網(wǎng)站，主要目的是爬取下圖中的所有信息，并將爬取到的數(shù)據(jù)進(jìn)行持久化存儲(chǔ)。(可以存儲(chǔ)到數(shù)據(jù)庫(kù)中或進(jìn)行數(shù)據(jù)可視化分析用web網(wǎng)頁(yè)進(jìn)行展示，這里我就以csv形式存在了本地） python3.8 pycharm Firefox 環(huán)境安裝: pip install selenium 版本對(duì)照表(火狐的) https://firefox-s
2024年02月07日
瀏覽(15)
python爬蟲數(shù)據(jù)解析xpath、jsonpath，bs4
解析數(shù)據(jù)的方式大概有三種 xpath JsonPath BeautifulSoup 打開谷歌瀏覽器擴(kuò)展程序，打開開發(fā)者模式，拖入插件，重啟瀏覽器，ctrl+shift+x，打開插件頁(yè)面安裝在python環(huán)境中的Scripts下邊，這里就是python庫(kù)的位置，例如我的地址為：E:pythonpython3.10.11Scripts 解析本地文件etree.parse( \\\'xx.
2024年02月13日
瀏覽(36)
Python網(wǎng)頁(yè)爬蟲爬取豆瓣Top250電影數(shù)據(jù)——Xpath數(shù)據(jù)解析
1.1 查看原頁(yè)面信息首先打開豆瓣Top250電影頁(yè)面，其網(wǎng)址是：https://movie.douban.com/top250。可以發(fā)現(xiàn)，該頁(yè)面展示的電影信息有中英文電影名、導(dǎo)演、主演、上映年份、國(guó)籍、電影類型、評(píng)分等。下滑到頁(yè)面底部，發(fā)現(xiàn)第一頁(yè)有25部電影的數(shù)據(jù)，并且可以點(diǎn)擊頁(yè)碼數(shù)實(shí)現(xiàn)頁(yè)面跳轉(zhuǎn)
2024年02月05日
瀏覽(29)
“jmeter使用xpath提取器獲取請(qǐng)求響應(yīng)中的value值作為下一個(gè)請(qǐng)求的輸入”案例
使用jmeter5.2.1的xpath提取器獲取請(qǐng)求響應(yīng)結(jié)果中值作為下一個(gè)請(qǐng)求的輸入，并在Bean Shell后置處理器中編寫通過日志打印 XPath提取器提取的內(nèi)容。提取內(nèi)容為請(qǐng)求響應(yīng)結(jié)果中的 input type=\\\"hidden\\\" name=\\\"execution\\\" value=\\\"a6cd.........................................................\\\" ，需要提取的為 v
2023年04月11日
瀏覽(27)
Python爬蟲實(shí)戰(zhàn)——Lazada商品數(shù)據(jù)（selenium自動(dòng)化爬蟲，xpath定位）
? ? ? ? 在此說明，這個(gè)項(xiàng)目是我第一次真正去爬的一個(gè)網(wǎng)站，里面寫的代碼我自己都看不下去，但是已經(jīng)不想花時(shí)間去重構(gòu)了，所以看個(gè)樂呵就好，要噴也可以（下手輕一點(diǎn)）。這篇文算是記錄我的學(xué)習(xí)中出現(xiàn)的一些問題，不建議拿來學(xué)習(xí)和真拿我的代碼去爬Lazada的數(shù)據(jù)，
2024年02月02日
瀏覽(22)
Python提取JSON格式數(shù)據(jù)
我們經(jīng)常會(huì)用到j(luò)son數(shù)據(jù)，json數(shù)據(jù)格式主要是用來和不同語言之間進(jìn)行交互比如你要給java端的提供數(shù)據(jù)，你需要將自己的數(shù)據(jù)轉(zhuǎn)換為json格式才行所以不管是提供給后端其他人，還是從API返回的數(shù)據(jù)結(jié)果，我們都需要封裝成json數(shù)據(jù)格式或者解析json數(shù)據(jù) json的數(shù)據(jù)格式類似于
2023年04月24日
瀏覽(17)
Python爬蟲|基礎(chǔ)知識(shí)點(diǎn)詳細(xì)匯總(requests、urllib、re、bs4、xpath、PyQuery、jsonpath、多線程、協(xié)程、數(shù)據(jù)保存、selenium)
1. 請(qǐng)求數(shù)據(jù) ① requests (1) 基本使用參數(shù) 對(duì)響應(yīng)內(nèi)容的操作 (2) Requests進(jìn)階:使用Session 為什么要用 Session? Session代表服務(wù)器與瀏覽器的一次會(huì)話過程，Session對(duì)象存儲(chǔ)了特定用戶會(huì)話所需的信息例如:一定時(shí)間內(nèi)記錄賬號(hào)密碼 (自動(dòng)登錄) 可以加快 requests請(qǐng)求速度需要客戶端登錄的
2023年04月08日
瀏覽(31)
Python從txt文件中提取特定數(shù)據(jù)
本段代碼用于，想要從一段txt文件中只提取目標(biāo)數(shù)據(jù)的情況。函數(shù)參數(shù)解釋： txt_path 文件路徑 epoch 這份文本文件中要提取出的數(shù)據(jù)個(gè)數(shù),默認(rèn)100 target 目標(biāo)數(shù)據(jù)的前綴 target_data_len 目標(biāo)數(shù)據(jù)的長(zhǎng)度，默認(rèn)為5 返回值，列表數(shù)據(jù) txt文檔內(nèi)容：使用：輸出：
2024年02月11日
瀏覽(22)