国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<address id="cylr5"><pre id="cylr5"></pre></address>

<i id="cylr5"></i>

<i id="cylr5"></i>

XPath從入門到精通：基礎(chǔ)和高級用法完整指南，附美團(tuán)APP匹配示例

2年前作者：程序員李林分類：Toy博客閱讀(17)違法舉報

這篇具有很好參考價值的文章主要介紹了XPath從入門到精通：基礎(chǔ)和高級用法完整指南，附美團(tuán)APP匹配示例。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

XPath 通常用來進(jìn)行網(wǎng)站、XML (APP )和數(shù)據(jù)挖掘，通過元素和屬性的方式來獲取指定的節(jié)點，然后抓取需要的信息。

學(xué)習(xí) XPath 語法之前，首先了解一下一些概念。

概念介紹

節(jié)點之間的關(guān)系

XPath從入門到精通：基礎(chǔ)和高級用法完整指南，附美團(tuán)APP匹配示例

以上面的 HTML 節(jié)點樹為例，節(jié)點之間包含了下列的關(guān)系：

父節(jié)點 (Parent)： HTML 是 DIV 和 P 節(jié)點的父節(jié)點；
子節(jié)點 (Child)：DIV 和 P 是 HTML 的子節(jié)點；
兄弟節(jié)點 (Sibling)：擁有同樣的一個父節(jié)點，DIV 和 P 就是兄弟節(jié)點。類似的 span、img 和 i 也是兄弟節(jié)點。
祖先節(jié)點 (Ancestor)：html 是 span 的祖先節(jié)點，隔開一級；
后代節(jié)點 (Descendant)：span 是 HTML 的后代節(jié)點，隔開一級。

除了了解這些概念，parent、sibling 等關(guān)鍵詞也非常關(guān)鍵，在匹配復(fù)雜的結(jié)構(gòu)時常常用到。

絕對和相對路徑

xpath 中絕對路徑使用 / 開始，比如：/html/body/div[1]/a/img，絕對路徑較長，其中可能包含變化的部分，不建議單獨使用絕對路徑來選擇元素，最好配合其它語法。
比如下面的情況單獨使用絕對路徑進(jìn)行定位就會出錯：

// 本意是匹配第三個div下的span，但因為第一個div因為是動態(tài)顯隱的，導(dǎo)致匹配第而個div匹配到之前的第三個了

/html/body/div[2]/span

相對路徑以 // 開始，比如 //*[@class]，表示只要包含 class 屬性的元素均可匹配，無論從哪一個節(jié)點開始。

下面是一些常見選擇節(jié)點示例：

表達(dá)式	說明	舉例
/	下一個節(jié)點，或者根節(jié)點開始	/html/body/div
//	從任意節(jié)點開始	//img
.	選取當(dāng)前節(jié)點	//a/.
..	當(dāng)前節(jié)點的父節(jié)點	//a/..
@	選取包含某屬性的元素	//div[@class]或//@class
*	表示任意元素或者任意屬性	//*[@class]

除此之外，通過谷歌瀏覽器-元素上審查元素-復(fù)制 xpath，可以直接獲取絕對路徑和相對路徑。

XPath從入門到精通：基礎(chǔ)和高級用法完整指南，附美團(tuán)APP匹配示例

但復(fù)制下來的代碼，通常還需要進(jìn)行一些修改，才能具備通用性。

基礎(chǔ)語法

定位需要的信息通常通過元素、屬性名、屬性值以及三者結(jié)合等方式進(jìn)行。

下面來分別看一下，也這段 html 代碼為例：

<div id="app">
  <p class="title">喜歡的動物</p>
  <ul>
	<li class="cat">貓</li>
	<li class="dog">狗</li>
	<li id="panda">熊貓</li>
  </ul>
  <p class="title">喜歡的電影</p>
  <ul>
	<li>阿甘正傳</li>
	<li>霸王別姬</li>
	<li>阿凡達(dá)</li>
  </ul>
  <p>其它不需要信息</p>
</div>

1. 通過元素名定位

示例：

1.1 //div/p
XPath從入門到精通：基礎(chǔ)和高級用法完整指南，附美團(tuán)APP匹配示例

定位所有 div 下的 p 子元素，可以是任何 div，只要這個 div 的子節(jié)點包含 p 就可以匹配

1.2 //ul
XPath從入門到精通：基礎(chǔ)和高級用法完整指南，附美團(tuán)APP匹配示例

會定位從任何節(jié)點開始的 ul 元素

1.3 /html/body/div/p
XPath從入門到精通：基礎(chǔ)和高級用法完整指南，附美團(tuán)APP匹配示例

使用絕對路徑定位元素，必須從 /html 開始，否則最好使用 // 相對路徑開始

2. 通過屬性名定位

通過元素是否包含某個屬性來進(jìn)行定位，屬性名需要使用 @ 開始，同時放在 [] 內(nèi)

2.1 //*[@class]
XPath從入門到精通：基礎(chǔ)和高級用法完整指南，附美團(tuán)APP匹配示例

定位包含 class 屬性的元素

2.2 //@class
XPath從入門到精通：基礎(chǔ)和高級用法完整指南，附美團(tuán)APP匹配示例

這種語法定位到的是屬性里面的具體值 title，而不是元素，所有沒有元素沒選中

3. 通過屬性值定位

示例：
//li[@class="cat"]
XPath從入門到精通：基礎(chǔ)和高級用法完整指南，附美團(tuán)APP匹配示例

定位包含 class 屬性，值為 cat 的 li 屬性元素

4. 使用邏輯運算符定位

常用邏輯運算符包括：and、or、not 三種

示例：

4.1 //li[@class and @class="cat"]
XPath從入門到精通：基礎(chǔ)和高級用法完整指南，附美團(tuán)APP匹配示例

選中包含 class 屬性，并且屬性值為 cat 的 li 元素對象。

4.2 //li[@class or @id]
XPath從入門到精通：基礎(chǔ)和高級用法完整指南，附美團(tuán)APP匹配示例

選中包含 class 或者 id 屬性的 li 元素對象。

4.3 //li[not(@class)]
XPath從入門到精通：基礎(chǔ)和高級用法完整指南，附美團(tuán)APP匹配示例

選中不包含 class 屬性的 li 元素對象。

5. 使用謂語定位

5.1 //li[1]
XPath從入門到精通：基礎(chǔ)和高級用法完整指南，附美團(tuán)APP匹配示例

定位任意元素下的第一個 li。

注意
xpath 中索引從 1 開始。

5.2 (//li)[1]
XPath從入門到精通：基礎(chǔ)和高級用法完整指南，附美團(tuán)APP匹配示例

兩者區(qū)別如下：
//li[1] 任意元素下第一個li，也就是說這個 li 在任意的 ul 下是第一個就會被選中
(//li)[1] 將所有的 li 選出來的結(jié)果數(shù)組中取第一個，這兩者是完全不同的含義

6. 使用文本定位

使用元素中文本的內(nèi)容進(jìn)行定位。

示例：

6.1 //li[text()="貓"]
XPath從入門到精通：基礎(chǔ)和高級用法完整指南，附美團(tuán)APP匹配示例

選中文本內(nèi)容為 貓 的 li 元素對象。

6.2 //*[contains(text(),"喜歡")]
XPath從入門到精通：基礎(chǔ)和高級用法完整指南，附美團(tuán)APP匹配示例

選中任意元素文本中包含 喜歡 兩個字的元素，其中 * 表示所有元素是通配符，contains() 表示包含函數(shù)。
類似的有：starts-with 和 ends-with 函數(shù)，表示以什么字符開始和字符結(jié)尾的文本。

節(jié)點選擇器

除了相對和絕對選擇之外，下面這些選擇器在處理較復(fù)雜的匹配場景可以發(fā)揮關(guān)鍵作用。

parent::：選中父級節(jié)點，/.. 也是選中父級，但是通常 parent:: 用于寫在 [] 里面作為條件來判斷
child::：選中子級節(jié)點，/ 也是選中子級，通常也是作為條件來使用
preceding-sibling::：選中同一層級的前面所有兄弟節(jié)點
following-sibling::：選中同一層級的后面所有兄弟節(jié)點
ancestor::：選中祖先節(jié)點，包括父級以及更上層的節(jié)點
descendant::：選中當(dāng)前節(jié)點下面的所有節(jié)點，包括子級

舉例：

//*[ancestor::div]
XPath從入門到精通：基礎(chǔ)和高級用法完整指南，附美團(tuán)APP匹配示例

選中所有元素中，上級是 div 的元素，其實也就是選中了所有元素，來看看這個
//ancestor::div
XPath從入門到精通：基礎(chǔ)和高級用法完整指南，附美團(tuán)APP匹配示例

只選中了一個元素。

兩者的區(qū)別如下：
//*[ancestor::div] 選中的 * 表示所有元素，這些元素條件是 [ancestor::div] 父級及以上有 div。
//ancestor::div 選中的是作為別人父級及以上的 div，也就是選中的是 div，這個 div 的是別人的父級或者爺級等
兩者是完全不同的概念

美團(tuán) APP 匹配示例

看了半天 HTML，我們來了解一下 APP 中的 XML，通常匹配 APP 比網(wǎng)頁復(fù)雜太多，基本就那幾個元素，而且屬性名基本都一樣，所以常用的手段還是使用各種條件來進(jìn)行限制匹配，下面來看一個例子。

 <android.view.View index="5" class="android.view.View" text="" checked="false" clickable="true">
  <android.widget.TextView index="1" class="android.widget.TextView" text="象山酥院（湛江印象匯店）" checked="false"/>
  <android.widget.TextView index="2" class="android.widget.TextView" text="" checked="false" clickable="true"/>
  <android.view.View index="3" class="android.view.View" text="" checked="false">
    <android.widget.TextView index="0" class="android.widget.TextView" text="5.0" checked="false" />
  </android.view.View>
  <android.widget.TextView index="4" class="android.widget.TextView" text="周銷量 872" checked="false" />
</android.view.View>
<android.view.View index="5" class="android.view.View" text="" checked="false" clickable="true">
  <android.widget.TextView index="1" class="android.widget.TextView" text="蜜雪冰城" checked="false"/>
  <android.widget.TextView index="2" class="android.widget.TextView" text="" checked="false" clickable="true"/>
  <android.view.View index="3" class="android.view.View" text="" checked="false">
    <android.widget.TextView index="0" class="android.widget.TextView" text="5.0" checked="false"/>
  </android.view.View>
  <android.widget.TextView index="4" class="android.widget.TextView" text="周銷量 2322" checked="false"/>
</android.view.View>

上面代碼為美團(tuán)的城市列表頁面的 UI XML 代碼，其中每個元素都包含大量相同的屬性和屬性值，關(guān)鍵在于整個頁面，任何地方基本就是 android.view.View 和 android.widget.TextView ，像匹配 HTML 那樣元素顯然行不通。

示例：獲取兩個商品的評分
//*[@text and ancestor::*/following-sibling::*[contains(@text, '周銷量')]]
規(guī)則解釋：獲取任何包含 text 屬性的元素，它的父級的的兄弟元素必須是一個 text 值中包含 "周銷量"的元素。
我這里沒有使用 [1][2][3] 來定位，是因為不同商品的屬性很多時候不一樣。

通常還是根據(jù)想要的元素的位置，以及相鄰元素的特征來定位，首先找到獨特的文本，比如上面的周銷量是固定會出現(xiàn)的，還有 ￥ 符號也可以，這些都是位置和文本值固定的，找到這個的位置，再去定位需要的元素的位置。文章來源地址http://www.zghlxwxcb.cn/news/detail-825085.html

工具推薦

谷歌瀏覽器-審查元素- ctrl + f，可以直接輸入 xpath 語句
谷歌瀏覽器-selectorshub 插件，文中使用的是這個插件

到了這里，關(guān)于XPath從入門到精通：基礎(chǔ)和高級用法完整指南，附美團(tuán)APP匹配示例的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進(jìn)行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費用

Java大師之路：從入門到精通的完整學(xué)習(xí)指南【文末送書-18】
Java是一門廣泛應(yīng)用于企業(yè)級應(yīng)用和移動應(yīng)用開發(fā)的高級編程語言。無論是初學(xué)者還是有經(jīng)驗的開發(fā)者，深入了解Java的方方面面都是一項重要的任務(wù)。本文將帶領(lǐng)讀者從Java的基礎(chǔ)入門開始，逐步深入，直至精通這門強(qiáng)大的編程語言。在開始學(xué)習(xí)Java之前，理解一些基礎(chǔ)概念是
2024年01月24日
瀏覽(34)
Vue--》Vue 3 路由進(jìn)階——從基礎(chǔ)到高級的完整指南
目錄 Vue3中路由講解與使用路由的安裝與使用路由模式的使用
2024年02月06日
瀏覽(45)
Python使用XPath解析HTML：從入門到精通
XPath是一種用于選擇XML文檔中節(jié)點的語言，它可以通過路徑表達(dá)式來定位節(jié)點。由于HTML文檔的結(jié)構(gòu)與XML文檔類似，XPath也可以用于解析HTML文檔。Python是一種非常流行的編程語言，它提供了許多庫用于解析HTML文檔。本文將介紹Python中使用XPath解析HTML文檔的方法和技巧。 XPath表達(dá)
2024年02月03日
瀏覽(24)
100天精通Golang（基礎(chǔ)入門篇）——第23天：錯誤處理的藝術(shù): Go語言實戰(zhàn)指南
???? 博主貓頭虎???? 帶您進(jìn)入 Golang 語言的新世界???? ?? 博客首頁 ——????貓頭虎的博客?? ?? 《面試題大全專欄》 ?? 文章圖文并茂??生動形象??簡單易學(xué)！歡迎大家來踩踩~?? ?? 《IDEA開發(fā)秘籍專欄》 ?? 學(xué)會IDEA常用操作，工作效率翻倍~?? ?? 《100天精通
2024年02月07日
瀏覽(36)
ClickHouse從入門到精通(高級)
第1章 Explain查看執(zhí)行計劃第2章建表優(yōu)化第3章 ClickHouse語法優(yōu)化規(guī)則第4章查詢優(yōu)化第5章數(shù)據(jù)一致性(重點) 第6章物化視圖第7章 MaterializeMySQL引擎第8章常見問題排查
2024年02月19日
瀏覽(24)
掌握 JavaScript：從初學(xué)者到高級開發(fā)者的完整指南（一）
html完成了架子，css做了美化，但是網(wǎng)頁是死的，我們需要給他注入靈魂，所以我們需要學(xué)習(xí)JavaScript，這門語言會讓我們的頁面能夠和用戶進(jìn)行交互。同樣，js代碼也是書寫在html中的，那么html中如何引入js代碼呢？主要通過下面的2種引入方式：第一種方式：內(nèi)部腳本，將
2024年02月07日
瀏覽(37)
掌握 JavaScript：從初學(xué)者到高級開發(fā)者的完整指南（三）
BOM的全稱是Browser Object Model,翻譯過來是瀏覽器對象模型。也就是JavaScript將瀏覽器的各個組成部分封裝成了對象。我們要操作瀏覽器的部分功能，可以通過操作BOM對象的相關(guān)屬性或者函數(shù)來完成。例如：我們想要將瀏覽器的地址改為 http://www.baidu.com ,我們就可以通過BOM中提供的
2024年02月06日
瀏覽(32)
【人工智能技術(shù)專題】「入門到精通系列教程」零基礎(chǔ)帶你進(jìn)軍人工智能領(lǐng)域的全流程技術(shù)體系和實戰(zhàn)指南（LLM、AGI和AIGC都是什么）
人工智能是一個龐大的研究領(lǐng)域。雖然我們已經(jīng)在人工智能的理論研究和算法開發(fā)方面取得了一定的進(jìn)展，但是我們目前掌握的能力仍然非常有限。機(jī)器學(xué)習(xí)是人工智能的一個重要領(lǐng)域，它研究計算機(jī)如何模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為，以獲取新的知識或技能，并通過重新組織
2024年02月13日
瀏覽(41)
web自動化之基礎(chǔ)內(nèi)容二（全網(wǎng)最詳細(xì)，selenium獲取斷言信息，顯示等待和隱式等待，xpath高級語法）-第二天
獲取到的斷言信息就是實際結(jié)果預(yù)期結(jié)果使我們確定的，直接寫在代碼中的而實際結(jié)果是無法確定的，所以需要用一些方法去獲取代碼示例場景：當(dāng)我們加載頁面的時候，一些元素是需要時間的就有可能發(fā)生，代碼執(zhí)行到了，而元素沒有被加載出來此時就會出現(xiàn)找不到元
2024年01月17日
瀏覽(21)
掌握 JavaScript：從初學(xué)者到高級開發(fā)者的完整指南之JavaScript對象（二）
可以大體分頁3大類：第一類：基本對象,我們主要學(xué)習(xí)Array和JSON和String 第二類：BOM對象,主要是和瀏覽器相關(guān)的幾個對象第三類：DOM對象，JavaScript中將html的每一個標(biāo)簽都封裝成一個對象 1.1.1 基本對象 1.1.1.1 Array對象語法格式 Array對象時用來定義數(shù)組的。常用語法格式有如下
2024年02月07日
瀏覽(25)

<i id="m2ff3"></i>