国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<em id="tlopr"></em>

<dd id="tlopr"><dl id="tlopr"></dl></dd>

Jsoup使用教程以及使用案例

2年前作者：蒼煜分類：Toy博客閱讀(53)違法舉報

這篇具有很好參考價值的文章主要介紹了Jsoup使用教程以及使用案例。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

1：什么是Jsoup

1：Jsoup概述

jsoup 是一款基于 Java 的HTML解析器，它提供了一套非常省力的API，不但能直接解析某個URL地址、HTML文本內(nèi)容，而且還能通過類似于DOM、CSS或者jQuery的方法來操作數(shù)據(jù)，所以 jsoup 也可以被當(dāng)做爬蟲工具使用，從網(wǎng)站獲取dom結(jié)構(gòu)，從而解析下載數(shù)據(jù)。

2：Jsoup能做什么

從 URL、文件或字符串中抓取和解析HTML（爬蟲）
使用DOM 遍歷或 CSS 選擇器查找和提取數(shù)據(jù)
操作HTML 元素、屬性和文本
根據(jù)安全列表清理用戶提交的內(nèi)容，以防止XSS攻擊
輸出整潔的網(wǎng)頁

2：Jsoup相關(guān)概念

Jsoup很多概念和js類似，可參照對比理解

Document ：文檔對象。每份HTML頁面都是一個文檔對象，Document 是 jsoup 體系中最頂層的結(jié)構(gòu)。
Element：元素對象。一個 Document 中可以著包含著多個 Element 對象，可以使用 Element 對象來遍歷節(jié)點提取數(shù)據(jù)或者直接操作HTML。
Elements：元素對象集合，類似于List。
Node：節(jié)點對象。標(biāo)簽名稱、屬性等都是節(jié)點對象，節(jié)點對象用來存儲數(shù)據(jù)。
類繼承關(guān)系：Document 繼承自 Element(class Document extends Element) ，Element 繼承自 Node(class Element extends Node)。
一般執(zhí)行流程：先獲取 Document 對象，然后獲取 Element 對象，最后再通過 Node 對象獲取數(shù)據(jù)。

3：獲取文檔

1：導(dǎo)入jsoup的jar包

 <!-- jsoup -->
  <dependency>
     <groupId>org.jsoup</groupId>
      <artifactId>jsoup</artifactId>
      <version>1.11.3</version>
  </dependency>

2：從URL中加載文檔對象（常用）

使用 Jsoup.connect(String url).get()方法獲?。ㄖ恢С?http 和 https 協(xié)議）

 try {
            Document document = Jsoup.connect("http://www.baidu.com").get();
            System.out.println(document.title());
        } catch (IOException e) {
            throw new RuntimeException(e);
        }

connect(String url)方法創(chuàng)建一個新的 Connection并通過.get()或者.post()方法獲得數(shù)據(jù)。如果從該URL獲取HTML時發(fā)生錯誤，便會拋出 IOException，應(yīng)適當(dāng)處理。
Connection 接口還提供一個方法鏈來解決特殊請求，我們可以在發(fā)送請求時帶上請求的頭部參數(shù)，具體如下：

 try {
            Document document = Jsoup.connect("http://www.baidu.com")
                    .data("query", "Java")
                    .userAgent("Mozilla")
                    .cookie("auth", "token")
                    .timeout(8000)
                    .post();
            System.out.println(document);

        } catch (IOException e) {
            throw new RuntimeException(e);
        }

3：從本地文件中加載文檔對象

可以使用靜態(tài)的Jsoup.parse(File in, String charsetName) 方法從文件中加載文檔。其中in表示路徑，charsetName表示編碼方式，示例代碼：

File input = new File("/tmp/input.html");
Document doc = Jsoup.parse(input, "UTF-8");
System.out.println(doc);

4：從字符串文本中加載文檔對象

使用靜態(tài)的Jsoup.parse(String html) 方法可以從字符串文本中獲得文檔對象 Document ，示例代碼：

String html = "<html><head><title>First parse</title></head>"
  + "<body><p>Parsed HTML into a doc.</p></body></html>";

Document doc = Jsoup.parse(html);
System.out.println(doc);

5：從片斷中獲取文檔對象

使用Jsoup.parseBodyFragment(String html)方法

String html = "<p>Lorem ipsum.</p>";
Document doc = Jsoup.parseBodyFragment(html);
// doc 此時為：<body> <p>Lorem ipsum.</p></body>

Element body = doc.body();
System.out.println(body);

parseBodyFragment 方法創(chuàng)建一個新的文檔，并插入解析過的HTML到body元素中。假如你使用正常的 Jsoup.parse(String html) 方法，通常也能得到相同的結(jié)果，但是明確將用戶輸入作為 body 片段處理是個更好的方式。

Document.body() 方法能夠取得文檔body元素的所有子元素，與 doc.getElementsByTag(“body”)相同。

4:定位選擇元素

1：DOM方式

我們可以利用dom結(jié)構(gòu)的方式，通過標(biāo)簽，id，class等查找到下屬元素

1：案例代碼

 // 獲取csdn首頁所有的鏈接
        Document doc = Jsoup.connect("http://www.baidu.com").get();

        Elements elements = doc.getElementsByTag("body");
        Elements contents = elements.first().getElementsByTag("a");

        for (Element content : contents) {
            String linkHref = content.attr("href");
            String linkText = content.text();
            System.out.print(linkText + "\t");
            System.out.println(linkHref);
        }

2：查找元素-下列方法返回的是Element或Elements

getElementById(String id)：通過id來查找元素
getElementsByTag(String tag)：通過標(biāo)簽來查找元素
getElementsByClass(String className)：通過類選擇器來查找元素
getElementsByAttribute(String key) ：通過屬性名稱來查找元素，例如查找?guī)в衕ref元素的標(biāo)簽。
siblingElements()：獲取兄弟元素。如果元素沒有兄弟元素，則返回一個空列表。
firstElementSibling()：獲取第一個兄弟元素。
lastElementSibling()：獲取最后一個兄弟元素。
nextElementSibling()：獲取下一個兄弟元素。
previousElementSibling()：獲取上一個兄弟元素。
parent()：獲取此節(jié)點的父節(jié)點。
children()：獲取此節(jié)點的所有子節(jié)點。
child(int index)：獲取此節(jié)點的指定子節(jié)點。

2：CSS選擇器方式

也可以使用類似于CSS選擇器的語法來查找和操作元素，常用的方法為select(String selector)。

1：代碼實例

Document doc = Jsoup.connect("http://csdn.com").get();

// 獲取帶有 href 屬性的 a 元素
Elements elements = doc.select("a[href]");

for (Element content : elements) {
    String linkHref = content.attr("href");
    String linkText = content.text();
    System.out.print(linkText + "\t");
    System.out.println(linkHref);
}

select()方法在Document、Element或Elements對象中都可以使用，而且是上下文相關(guān)的，因此可實現(xiàn)指定元素的過濾，或者采用鏈?zhǔn)皆L問。

select() 方法將返回一個Elements集合，并提供一組方法來抽取和處理結(jié)果。

2：select(String selector)方法參數(shù)簡介

tagname: 通過標(biāo)簽查找元素，例如通過"a"來查找< a >標(biāo)簽。
#id: 通過ID查找元素，比如通過#logo查找< p id=“l(fā)ogo”>
.class: 通過class名稱查找元素，比如通過.titile查找< p class=“titile”>
ns|tag: 通過標(biāo)簽在命名空間查找元素，比如使用 fb|name 來查找 < fb:name>
[attribute]: 利用屬性查找元素，比如通過[href]查找< a href=“…”>
[ ^attribute]: 利用屬性名前綴來查找元素，比如：可以用[^data-] 來查找?guī)в蠬TML5 dataset屬性的元素
[ attribute=value]: 利用屬性值來查找元素，比如：[ width=500]
[attribute^=value], [attribute$=value], [attribute*=value]: 利用匹配屬性值開頭、結(jié)尾或包含屬性值來查找元素，比如通過[href*=/path/]來查找
[attribute~=regex]: 利用屬性值匹配正則表達式來查找元素，比如通過 img[src~=(?i).(png|jpe?g)]來匹配所有的png或者jpg、jpeg格式的圖片
*: 通配符，匹配所有元素

3：參數(shù)屬性組合使用

例如：Elements elements = doc.select(“div.css_tr_event”);

el#id: 元素+ID，比如： div#logo
el.class: 元素+class，比如： div.masthead
el[attr]: 元素+class，比如 a[href]匹配所有帶有 href 屬性的 a 元素。
任意組合，比如：a[href].highlight匹配所有帶有 href 屬性且class="highlight"的 a 元素。
ancestor child: 查找某個元素下子元素，比如：可以用.body p 查找在"body"元素下的所有 p元素,中間有一個空
parent > child: 查找某個父元素下的直接子元素，比如：可以用div.content > p 查找 p 元素，也可以用body > * 查找body標(biāo)簽下所有直接子元素
siblingA + siblingB: 查找在A元素之前第一個同級元素B，比如：div.head + div
siblingA ~ siblingX: 查找A元素之前的同級X元素，比如：h1 ~ p
el, el, el:多個選擇器組合，查找匹配任一選擇器的唯一元素，例如：div.masthead, div.logo

4：特殊參數(shù)：偽選擇器

:lt(n): 查找哪些元素的同級索引值（它的位置在DOM樹中是相對于它的父節(jié)點）小于n，比如：td:lt(3) 表示小于三列的元素
:gt(n):查找哪些元素的同級索引值大于n``，比如： div p:gt(2)表示哪些div中有包含2個以上的p元素
:eq(n): 查找哪些元素的同級索引值與n相等，比如：form input:eq(1)表示包含一個input標(biāo)簽的Form元素
:has(seletor): 查找匹配選擇器包含元素的元素，比如：div:has§表示哪些div包含了p元素
:not(selector): 查找與選擇器不匹配的元素，比如： div:not(.logo) 表示不包含 class=logo 元素的所有 div 列表
:contains(text): 查找包含給定文本的元素，搜索不區(qū)分大不寫，比如： p:contains(jsoup)
:containsOwn(text): 查找直接包含給定文本的元素
:matches(regex): 查找哪些元素的文本匹配指定的正則表達式，比如：div:matches((?i)login)
:matchesOwn(regex): 查找自身包含文本匹配指定正則表達式的元素
注意：上述偽選擇器索引是從0開始的，也就是說第一個元素索引值為0，第二個元素index為1等

5:獲取數(shù)據(jù)

1：獲取元素數(shù)據(jù)

attr(String key)：獲取單個屬性值
attributes()：獲取所有屬性值
attr(String key, String value)：設(shè)置屬性值
text()：獲取文本內(nèi)容
text(String value)：設(shè)置文本內(nèi)容
html()：獲取元素內(nèi)的HTML內(nèi)容
html(String value)：設(shè)置元素內(nèi)的HTML內(nèi)容
outerHtml()：獲取元素外HTML內(nèi)容
data()：獲取數(shù)據(jù)內(nèi)容（例如：script和style標(biāo)簽)
id()：獲得id值（例：
衣服
）
className()：獲得第一個類選擇器值
classNames()：獲得所有的類選擇器值
tag()：獲取元素標(biāo)簽
tagName()：獲取元素標(biāo)簽名（如：
、

等）

2：操作HTML文本

append(String html)：在末尾追加HTML文本
prepend(String html)：在開頭追加HTML文本
html(String value)：在匹配元素內(nèi)部添加HTML文本。

6：修改數(shù)據(jù)

在解析了一個Document對象之后，你可能想修改其中的某些屬性值，并把它輸出到前臺頁面或保存到其他地方，jsoup對此提供了一套非常簡便的接口（支持鏈?zhǔn)綄懛ǎ?/p>

1:設(shè)置屬性的值

當(dāng)以下方法針對Element對象操作時，只有一個元素會受到影響。當(dāng)針對Elements對象進行操作時，可能會影響到多個元素。

.attr(String key, String value)：設(shè)置標(biāo)簽的屬性值。
.addClass(String className)：增加類選擇器選項
.removeClass(String className)：刪除對應(yīng)的類選擇器

Document doc = Jsoup.connect("http://csdn.com").get();

// 復(fù)數(shù)，Elements
Elements elements = doc.getElementsByClass("text");
// 單數(shù)，Element
Element element = elements.first();

// 復(fù)數(shù)對象，所有 class="text" 的元素都將受到影響
elements.attr("name","goods");
// 單數(shù)對象，只有一個元素會受到影響（鏈?zhǔn)綄懛ǎ?/span>
element.attr("name","shop")
        .addClass("red");

2：修改元素的HTML內(nèi)容

可以使用Element中的HTML設(shè)置方法具體如下：

.html(String value)：這個方法將先清除元素中的HTML內(nèi)容，然后用傳入的HTML代替。
.prepend(String value)：在元素前添加html內(nèi)容。
.append(String value)：在元素后添加html內(nèi)容。
.wrap(String value)：對元素包裹一個外部HTML內(nèi)容，將元素置于新增的內(nèi)容中間。

Document doc = Jsoup.connect("http://csdn.com").get();

Element div = doc.select("div").first();
div.html("<p>csdn</p>");
div.prepend("<p>a</p>");
div.append("<p>good</p>");
// 輸出：<div"> <p>a</p> <p>csdn</p> <p>good</p> </div>

Element span = doc.select("span").first();
span.wrap("<li><a href='...'></a></li>");
// 輸出: <li><a href="..."> <span>csdn</span> </a></li>

3：修改元素的文本內(nèi)容

對于傳入的文本，如果含有像 <, > 等這樣的字符，將以文本處理，而非HTML。

.text(String text) ：清除元素內(nèi)部的HTML內(nèi)容，然后用提供的文本代替。
.prepend(String first)：在元素后添加文本節(jié)點。
Element.append(String last)：在元素前添加文本節(jié)點。

 // <div></div>
Element div = doc.select("div").first();

div.text(" one "); 
div.prepend(" two ");
div.append(" three ");
// 輸出: <div> two one three </div>

7:其他功能

1：返回html鏈接的絕對路徑

問題描述：
??你有一個包含相對URLs路徑的HTML文檔，現(xiàn)在需要將這些相對路徑轉(zhuǎn)換成絕對路徑的URLs。

解決方式：

確保在你解析文檔時有指定base URI路徑。
然后使用 abs: 屬性前綴來取得包含base URI的絕對路徑。代碼如下：

 Document doc = Jsoup.connect("http://www.open-open.com").get();
        Element link = doc.select("a").first();
        // 輸出：/
        String relHref = link.attr("href");
        // 輸出：http://www.open-open.com/
        String absHref = link.attr("abs:href");

說明：

在HTML元素中，URLs經(jīng)常寫成相對于文檔位置的相對路徑，如：…。當(dāng)你使用 .attr(String key) 方法來取得a元素的href屬性時，它將直接返回在HTML源碼中指定的值。

假如你需要取得一個絕對路徑，需要在屬性名前加 abs: 前綴，這樣就可以返回包含根路徑的URL地址attr(“abs:href”)。因此在解析HTML文檔時，定義base URI非常重要。

2：使用代理

當(dāng)訪問某個網(wǎng)頁需要使用代理服務(wù)器時，可以通過這種方法進行代理設(shè)置。后續(xù)元素操作就一樣了；文章來源地址http://www.zghlxwxcb.cn/news/detail-800069.html

Document document = Jsoup.connect("http://csdn.net/")
                .proxy("12.12.12.12", 1080)    // 使用代理
                .get();

到了這里，關(guān)于Jsoup使用教程以及使用案例的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費用

【Java-Crawler】HttpClient+Jsoup實現(xiàn)簡單爬蟲
網(wǎng)絡(luò)爬蟲（WEB crawler），是一種按照一定的規(guī)則，自動地抓取萬維網(wǎng)信息的程序或者腳本。導(dǎo)入依賴（下面列的程序用的是這個依賴，是版本5，我是從Maven中直接copy最新版的，沒想那么多，但4點多的用的人多點，而且網(wǎng)上資料也多點，所以還是推薦大家用4點多的吧，但是下
2024年02月05日
瀏覽(26)
探索 Java 網(wǎng)絡(luò)爬蟲：Jsoup、HtmlUnit 與 WebMagic 的比較分析
在當(dāng)今信息爆炸的時代，網(wǎng)絡(luò)數(shù)據(jù)的獲取和處理變得至關(guān)重要。對于 Java 開發(fā)者而言，掌握高效的網(wǎng)頁抓取技術(shù)是提升數(shù)據(jù)處理能力的關(guān)鍵。本文將深入探討三款廣受歡迎的 Java 網(wǎng)頁抓取工具：Jsoup、HtmlUnit 和 WebMagic，分析它們的功能特點、優(yōu)勢以及適用場景，以助開發(fā)者選
2024年04月29日
瀏覽(19)
SpringBoot、Java 使用 Jsoup 解析 HTML 頁面
什么是 Jsoup？ Jsoup 是一個用于處理 HTML 頁面的 Java 庫，它提供了簡單的 API，使得從 HTML 中提取數(shù)據(jù)變得非常容易。無論是獲取特定標(biāo)簽的內(nèi)容還是遍歷整個頁面的元素，Jsoup 都能輕松勝任。如何使用 Jsoup 解析 HTML 頁面？首先，確保你的 Java 項目中已經(jīng)添加了 Jsoup 的依賴。
2024年02月13日
瀏覽(25)
java中使用Jsoup和Itext實現(xiàn)將html轉(zhuǎn)換為PDF
1.在build.gradle中安裝所需依賴： 2.創(chuàng)建工具類，實現(xiàn)轉(zhuǎn)換方法 3.base64過濾類： 4.字體類代碼，window用戶可在C:windowsfont中尋找自己所需字體即可。我這里用的為黑體： simhei.ttf 效果如下： html頁面預(yù)覽： pdf頁面預(yù)覽： ? ?
2024年02月14日
瀏覽(25)
使用Java Jsoup讀取小說內(nèi)容并保存到本地，使用idea插件thief-book-idea看小說
摸魚時看小說非常不方便，就突發(fā)奇想怎么能在工作軟件上看呢，于是去查詢了資料。在idea上面看小說需要安裝插件thief-book-idea，但是這個插件不能在線閱讀，需要導(dǎo)入小說進去，所以就想到了把小說下載下來，然后導(dǎo)入插件中廢話不多說，先看代碼： 1.我使用的是spring
2024年04月28日
瀏覽(37)
jsoup的使用
本文在寫作過程中參考了官方文檔，傳送門。 ??jsoup 是一款基于 Java 的HTML解析器，它提供了一套非常省力的API，不但能直接解析某個URL地址、HTML文本內(nèi)容，而且還能通過類似于DOM、CSS或者jQuery的方法來操作數(shù)據(jù)，所以 jsoup 也可以被當(dāng)做爬蟲工具使用。 Document ：文檔對象
2024年02月03日
瀏覽(10)
jsoup 框架的使用指南
參考：官方文檔 jsoup的使用 JSoup教程 jsoup 在 GitHub 的開源代碼 jsoup 是一款基于 Java 的 HTML 解析器，它提供了一套非常省力的 API，不但能直接解析某個 URL 地址、HTML 文本內(nèi)容，而且還能通過類似于 DOM、CSS 或者 jQuery 的方法來操作數(shù)據(jù)，所以 jsoup 也可以被當(dāng)做爬蟲工具使用。
2023年04月09日
瀏覽(28)
使用Jsoup庫編寫下載程序
該任務(wù)要求使用Jsoup庫編寫一個下載程序，以下是完成該任務(wù)的代碼，每行代碼都有相應(yīng)的中文解釋。首先，我們需要導(dǎo)入Jsoup庫和Kotlin標(biāo)準(zhǔn)庫。然后，我們需要創(chuàng)建一個對象，該對象用于指定服務(wù)器的主機名和端口號。接下來，我們需要使用代理對象來連接到要下載的URL。
2024年02月06日
瀏覽(32)
java 中開源的html解析庫Jsoup 簡單例子
????????下面是一個使用Jsoup庫解析HTML的簡單Java例子。這個例子展示了如何使用Jsoup從一個HTML字符串中提取數(shù)據(jù)。 ????????首先，確保你已經(jīng)將Jsoup作為依賴項添加到你的項目中。如果你使用的是Maven，可以在`pom.xml`文件中添加以下依賴： ???????? ???????? 然后
2024年02月22日
瀏覽(25)
Jsoup爬取簡單信息
注意版本一定是1.15.3，1.15.4可能無法獲取信息先找到豆瓣圖書網(wǎng)址豆瓣先找到整個布局的部分，list-col2，里面存儲著相應(yīng)的元素標(biāo)簽所以document的select標(biāo)簽就是ul.list-col2 li，意思是選擇ul里面標(biāo)簽list-col2，然后選擇里面的li li里面分成兩個部分，包含cover和info，我這里取出
2024年02月13日
瀏覽(14)