使用 Jsoup 解析 HTML 頁面
什么是 Jsoup?
Jsoup 是一個用于處理 HTML 頁面的 Java 庫,它提供了簡單的 API,使得從 HTML 中提取數(shù)據(jù)變得非常容易。無論是獲取特定標(biāo)簽的內(nèi)容還是遍歷整個頁面的元素,Jsoup 都能輕松勝任。
如何使用 Jsoup 解析 HTML 頁面?
首先,確保你的 Java 項目中已經(jīng)添加了 Jsoup 的依賴。你可以在 Maven 或 Gradle 中添加以下依賴:
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.15.3</version>
</dependency>
然后,你可以按照以下步驟來使用 Jsoup 解析 HTML 頁面:
步驟:
步驟 1:導(dǎo)入 Jsoup 類
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
步驟 2:獲取頁面內(nèi)容并解析為 Document 對象**
String url = "https://example.com"; // 替換為你想要解析的頁面 URL
Document document = Jsoup.connect(url).get();
步驟 3:使用選擇器獲取特定元素
Jsoup 使用類似于 CSS 選擇器的語法來選擇和定位頁面元素。以下是一些常用的選擇器示例:
- 選擇特定標(biāo)簽的元素:
Elements links = document.select("a"); // 獲取所有 <a> 標(biāo)簽
- 選擇具有特定 class 屬性的元素:
Elements articles = document.select(".article"); // 獲取所有 class="article" 的元素
- 選擇具有特定 id 屬性的元素:
Element header = document.select("#header"); // 獲取 id="header" 的元素
步驟 4:遍歷元素并提取內(nèi)容
Element.text(); // 獲取鏈接文本
Element.attr("href"); // 獲取鏈接地址
Element.val(); // 獲取連接value值
Jsoup 常用方法的作用和用法
在前面的步驟中,我們已經(jīng)簡單地介紹了一些 Jsoup 的常用方法。下面是一些常用方法的詳細說明:
-
Jsoup.connect(url).get()
: 這個方法用于連接指定的 URL,并將頁面內(nèi)容解析為一個 Document 對象。 -
document.select(selector)
: 這個方法使用選擇器來選取符合條件的元素??梢赃x擇標(biāo)簽名、class、id 等屬性。 -
element.text()
: 獲取元素的文本內(nèi)容。 -
element.attr(attributeKey)
: 獲取元素指定屬性的值,常用于獲取鏈接地址、圖像路徑等屬性。 -
element.html()
: 獲取元素內(nèi)部的 HTML 代碼。 -
element.val()
:獲取元素內(nèi)的value屬性值。 -
element.getElementById(id)
:按ID查找元素,包括該元素或在該元素下。 -
element.getElementsByClass(className)
:查找具有此類的元素,包括該元素或在該元素下。不區(qū)分大小寫。 -
element.getElementsByAttribute(key)
:查找具有命名屬性集的元素。不區(qū)分大小寫。 -
element.getElementsByAttributeStarting(keyPrefix)
:查找屬性名稱以提供的前綴開頭的元素。使用數(shù)據(jù)-查找具有HTML5數(shù)據(jù)集的元素。 -
element.getElementsContainingOwnText(searchText);
:查找直接包含指定字符串的元素。搜索不區(qū)分大小寫。文本必須直接出現(xiàn)在元素中,而不能出現(xiàn)在其任何子體中。文章來源:http://www.zghlxwxcb.cn/news/detail-649850.html -
element.hasText()
:判斷這個元素是否有任何文本內(nèi)容(不僅僅是空白)。文章來源地址http://www.zghlxwxcb.cn/news/detail-649850.html
到了這里,關(guān)于SpringBoot、Java 使用 Jsoup 解析 HTML 頁面的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!