国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<tfoot id="d8jrx"><s id="d8jrx"></s></tfoot>

<th id="d8jrx"><nobr id="d8jrx"></nobr></th>

【教你寫爬蟲】用Java爬蟲爬取百度搜索結(jié)果！可爬10w+條！

2年前作者：pzistart分類：Toy博客閱讀(22)違法舉報

這篇具有很好參考價值的文章主要介紹了【教你寫爬蟲】用Java爬蟲爬取百度搜索結(jié)果！可爬10w+條！。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

一、爬取目標

大家好，我是盆子。今天這篇文章來講解一下：使用Java爬蟲爬取百度搜索結(jié)果。

首先，展示爬取的數(shù)據(jù)，如下圖。

爬取結(jié)果1:

【教你寫爬蟲】用Java爬蟲爬取百度搜索結(jié)果！可爬10w+條！

爬取結(jié)果2:

【教你寫爬蟲】用Java爬蟲爬取百度搜索結(jié)果！可爬10w+條！

代碼爬取展示:

【教你寫爬蟲】用Java爬蟲爬取百度搜索結(jié)果！可爬10w+條！

可以看到，上面爬取了五個字段，包括

標題，原文鏈接地址，鏈接來源，簡介信息，發(fā)布時間。

二、爬取分析

用到的技術(shù)棧，主要有這些

Puppeteer 網(wǎng)頁自動化工具
Jsoup 瀏覽器元素解析器
Mybatis-Plus 數(shù)據(jù)庫存儲

2.1 網(wǎng)頁結(jié)構(gòu)分析

打開百度搜索，搜索“手機”二字，可以看到下面這樣的搜索結(jié)果，我們需要爬的信息都在上面。

爬取網(wǎng)頁元素分析1:*

*嘗試去分析它的網(wǎng)頁結(jié)構(gòu)：

【教你寫爬蟲】用Java爬蟲爬取百度搜索結(jié)果！可爬10w+條！

爬取網(wǎng)頁元素分析2:

【教你寫爬蟲】用Java爬蟲爬取百度搜索結(jié)果！可爬10w+條！

打開控制臺F12，可以看到這個 class =“result c-container xpath-log new-pmd” 所在的 div 標簽就包含我們要爬取的所有信息。

那就很簡單了，我們只需要去這個div里面，將需要的元素 (字段) 信息挨個的獲取即可。

同理，這個結(jié)構(gòu)也就是百度搜索結(jié)果的通用結(jié)構(gòu)，其他的搜索結(jié)果中，也可以通過該 class 去定位。

2.2 爬蟲代碼分析

首先，這是我們代碼的核心依賴：

    <dependency>
        <groupId>org.jsoup</groupId>
        <artifactId>jsoup</artifactId>
        <version>1.16.2</version>
    </dependency>

    <dependency>
        <groupId>io.github.fanyong920</groupId>
        <artifactId>jvppeteer</artifactId>
        <version>1.1.5</version>
    </dependency>

    <dependency>
        <groupId>com.baomidou</groupId>
        <artifactId>mybatis-plus-boot-starter</artifactId>
        <version>${mybaits.plus.version}</version>
    </dependency>

初始化瀏覽器，并且打開百度搜索頁

        // 初始化瀏覽器相關(guān)
        BrowserFetcher.downloadIfNotExist(null);
        ArrayList<String> argList = new ArrayList<>();
        LaunchOptions options = new LaunchOptionsBuilder().withArgs(argList).withHeadless(false).build();
        argList.add("--no-sandbox");
        argList.add("--disable-setuid-sandbox");
        System.out.println("==1=");
        Browser browser = Puppeteer.launch(options);

        // 打開頁面，開爬
        Page page = browser.newPage();
        page.goTo("https://www.baidu.com/");

運行上述代碼，就會彈出一個瀏覽器(受我們代碼控制)，并且打開百度搜索頁面

找出頁面元素，并且模擬人工搜索關(guān)鍵字、點擊搜索按鈕的操作

        // 模擬人工搜索關(guān)鍵字
        ElementHandle inputField = page.$("#kw");
        inputField.type("手機");
        // 模擬人工點擊搜索按鈕
        ElementHandle confirmSearch = page.$("#su");
        confirmSearch.click();

此時，瀏覽器頁面已經(jīng)按照你的搜索關(guān)鍵詞開始搜索了。

用代碼解析頁面

    // 獲取頁面所有內(nèi)容(HTML格式)
    String content = page.content();
    // 解析頁面元素，方便后面定位
    Document document = Jsoup.parse(content);
    // 找出我們上面說的那個class所在的div標簽
    Elements elements = document.getElementsByClass("result c-container xpath-log new-pmd");

    // 去 class所在的div標簽中找出需要的 字段信息
    for (int i = 0; i < elements.size(); i++) {
        Element element = elements.get(i);
        String title = element.getElementsByTag("a").text();
        String keyword = StrUtil.sub(title, 0, 7);
        // 將關(guān)鍵詞存儲到隊列中，后續(xù)可使用
        keyWordsQueue.offer(keyword);
        String href = element.getElementsByTag("a").attr("href");
        // ...找出其他字段
        System.out.println(dataInfo);
    }

至此，一個關(guān)鍵詞的爬取就已經(jīng)完成，如果想要繼續(xù)爬取關(guān)鍵詞，我們繼續(xù)搜索其他關(guān)鍵詞，并且重復上述操作即可。

完整代碼中，還包隨機等待時長、解析其他字段、保存數(shù)據(jù)、多個關(guān)鍵字同時爬取等關(guān)鍵邏輯，詳見文末。

三、總結(jié)

在爬蟲中，無非就是模擬人的操作過程，去做相關(guān)操作，獲取數(shù)據(jù)。

通過上文介紹的方式，我們是使用一種更具有通用型的方式去爬取數(shù)據(jù)。因為Puppeteer只是代理人手工點擊的方式，而拿到數(shù)據(jù)。

上述完整代碼，可以留言私信我獲取。

本文由博客一文多發(fā)平臺 OpenWrite 發(fā)布！文章來源地址http://www.zghlxwxcb.cn/news/detail-750269.html

到了這里，關(guān)于【教你寫爬蟲】用Java爬蟲爬取百度搜索結(jié)果！可爬10w+條！的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔相關(guān)法律責任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費用

（已解決）關(guān)鍵詞爬取百度搜索結(jié)果，返回百度安全驗證，網(wǎng)絡(luò)不給力，請稍后重試，無法請求到正確數(shù)據(jù)的問題
已解決，使用進行百度搜索，然后爬取搜索結(jié)果，請求數(shù)據(jù)后，返回的是百度安全驗證，網(wǎng)絡(luò)不給力，請稍后重試。無法請求到正確數(shù)據(jù)。且嘗試在header中增加Accept參數(shù)還是不行。 ? ? ?在學習過程中，寫了一小段練習用的爬取程序，獲取百度搜索后的結(jié)果，代
2024年02月08日
瀏覽(31)
【爬蟲實戰(zhàn)】用python爬取微博任意關(guān)鍵詞搜索結(jié)果、exe文件
項目功能簡介： 1.交互式配置； 2.兩種任意來源（直接輸入、本地文件）； 3.自動翻頁(無限爬取)； 4.指定最大翻頁頁碼； 5.數(shù)據(jù)保存到csv文件； 6.程序支持打包成exe文件； 7.項目操作說明文檔；一.最終效果視頻演示：用python爬取微博搜索結(jié)果、exe文件
2024年02月02日
瀏覽(29)
（已解決）關(guān)鍵詞爬取百度搜索結(jié)果，返回百度安全驗證，網(wǎng)絡(luò)不給力，請稍后重試，無法請求到正確數(shù)據(jù)的問題（2023最新）
已解決，使用進行百度搜索，然后爬取搜索結(jié)果，請求數(shù)據(jù)后，返回的是百度安全驗證，網(wǎng)絡(luò)不給力，請稍后重試。無法請求到正確數(shù)據(jù)。且嘗試在header中增加Accept參數(shù)還是不行。 ? ? ?在學習過程中，寫了一小段練習用的爬取程序，獲取百度搜索后的結(jié)果，代
2024年02月17日
瀏覽(27)
selenium-java web自動化測試工具抓取百度搜索結(jié)果實例
??? 交流討論：歡迎加入我們一起學習！ ?? 資源分享：耗時200+小時精選的「軟件測試」資料包 ??? 教程推薦：火遍全網(wǎng)的《軟件測試》教程?? ?? 歡迎點贊 ?? 收藏 ?留言 ?? 如有錯誤敬請指正！ selenium-java web自動化測試工具抓取百度搜索結(jié)果實例這種方式抓百度
2024年03月14日
瀏覽(25)
爬蟲 | 【實踐】百度搜索鏈接爬取，生成標題詞云 | 以“AI換臉”為例
目錄 ??鏈接爬取 ??流程梳理 ??代碼實現(xiàn) ??結(jié)果 ??詞云生成 ??代碼實現(xiàn) ??結(jié)果總體流程是：構(gòu)建搜索鏈接 - 發(fā)送HTTP請求 - 解析網(wǎng)頁內(nèi)容 - 提取標題和鏈接 - 判斷重復 - 寫入csv工作表 - 保存csv工作簿。循環(huán)遍歷 100頁（暫定，實現(xiàn)翻頁）的搜索結(jié)果，完成全部數(shù)據(jù)的
2024年02月06日
瀏覽(28)
【經(jīng)驗分享】在百度搜索引擎中的結(jié)果中，過濾指定的網(wǎng)站
系統(tǒng)版本：Windows 10 描述：在搜索引擎中想在結(jié)果中過濾一些指定網(wǎng)站，快速找到有價值的內(nèi)容。視頻教程：文字教程： 1.進入百度搜索引擎，bing搜索引擎貌似不可以。 www.baidu.com 2.搜索內(nèi)容如：銳捷無線AC基礎(chǔ)命令 -csdn，“-”這個符號是減號，0旁邊那個，或者小鍵盤的減
2024年02月03日
瀏覽(26)
百度文庫爬蟲（爬取需要下載券的文檔）
import requests import re import json import os session = requests.session() def fetch_url(url): ??? return session.get(url).content.decode(\\\'gbk\\\') def get_doc_id(url): ??? return re.findall(\\\'view/(.*).html\\\', url)[0] def parse_type(content): ??? return re.findall(r\\\"docType.*?:.*?\\\'(.*?)\\\',\\\", content)[0] def parse_title(content): ??? return re.fi
2023年04月23日
瀏覽(18)
【爬蟲案例】用Python爬取百度熱搜榜數(shù)據(jù)！
目錄一、爬取目標二、編寫爬蟲代碼三、同步視頻講解四、完整源碼您好，我是@馬哥python說，一名10年程序猿。本次爬取的目標是：百度熱搜榜分別爬取每條熱搜的：熱搜標題、熱搜排名、熱搜指數(shù)、描述、鏈接地址。下面，對頁面進行分析。經(jīng)過分析，此頁面有XH
2024年02月13日
瀏覽(27)
【ElasticSearch】使用 Java 客戶端 RestClient 實現(xiàn)對文檔的查詢操作，以及對搜索結(jié)果的排序、分頁、高亮處理
在 Elasticsearch 中，通過 RestAPI 進行 DSL 查詢語句的構(gòu)建通常是通過 HighLevelRestClient 中的 resource() 方法來實現(xiàn)的。該方法包含了查詢、排序、分頁、高亮等所有功能，為構(gòu)建復雜的查詢提供了便捷的接口。 RestAPI 中構(gòu)建查詢條件的核心部分是由一個名為 QueryBuilders 的工具類提供
2024年01月16日
瀏覽(41)
java APT原理及APT實戰(zhàn) - 一步步教你寫B(tài)utterKnife
Java APT 是 Java 技術(shù)設(shè)計的一個 APT 架構(gòu)， APT（Annotation Processing Tool）即注解處理器，它是一種處理注解的工具，也是javac中的一個工具，用于在編譯階段未生成class之前對源碼中的注解進行掃描和處理。 APT可以用來在編譯時掃描和處理注解，?它可以用來獲取到注解和被注解對
2024年02月05日
瀏覽(21)

<tfoot id="tnxzx"><abbr id="tnxzx"><progress id="tnxzx"></progress></abbr></tfoot>

<i id="tnxzx"><kbd id="tnxzx"></kbd></i>