国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<strong id="6fk9b"><center id="6fk9b"></center></strong>

<strong id="6fk9b"><form id="6fk9b"></form></strong>

ChatGPT實現(xiàn)HTML網(wǎng)頁文本提取

2年前作者：云哲-吉吉2021分類：Toy博客閱讀(23)違法舉報

這篇具有很好參考價值的文章主要介紹了ChatGPT實現(xiàn)HTML網(wǎng)頁文本提取。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

網(wǎng)頁自動化工具

既然ChatGPT對于編程語言有非常強大的理解能力，那么它是否可以用來自動化地處理網(wǎng)頁呢？答案是肯定的。ChatGPT可以使用機器學(xué)習(xí)算法來識別網(wǎng)頁元素中的文本，并抽取出有用的信息。

例如我們提供一段層數(shù)比較多的相對來說較為復(fù)雜的 HTML 代碼，如下圖所示：

ChatGPT實現(xiàn)HTML網(wǎng)頁文本提取

圖中我們用紅框標(biāo)出的部分是需要抽取的文本，我們可以要求 ChatGPT 幫我們抽取出其中的文本，看看是否如我們期望的，只將紅框中的部分抽取出來。如下圖所示：

ChatGPT實現(xiàn)HTML網(wǎng)頁文本提取

我們看到，ChatGPT成功地將紅框中的文本抽取出來了，而且沒有將 HTML 片段中

<img data-v-ae3ef2f2="" data-v-28d01aa9="" src="https://static001.infoq.cn/resource/image/c1/ab/c1a96a0372f54a63493051b05b3d5aab.png" alt="圖片默認(rèn)文字:馬斯克開源Twitter算法！推薦機制正式公開，GitHub Star數(shù)已破萬" class="article-image">

圖片標(biāo)簽的默認(rèn)顯示文字抽取出來，可以說對于文本部分的識別成功率還是不錯的，后續(xù)我們就可以基于這些抽取出來的文本進(jìn)行進(jìn)一步的處理了。

ChatGPT對于 HTML 的理解不僅僅在于文本的抽取，它可以識別整個 HTML 的結(jié)構(gòu)，基于這個能力，我們就可以要求 ChatGPT 幫我們?nèi)崿F(xiàn)一些更有趣的功能。比如我們希望通過輸入文本指令，可以控制網(wǎng)頁中的元素進(jìn)行一些操作，例如點擊、輸入、滾動等等，那么我們可以通過 ChatGPT 對指令進(jìn)行解析并根據(jù)預(yù)設(shè)的操作和要求，幫助我們按照模版生成相應(yīng)的指令片段，這樣我們后續(xù)就可以根據(jù)這些統(tǒng)一格式的指令片段進(jìn)行解析并做相應(yīng)的處理了。例如，我們可以先給ChatGPT設(shè)定一個prompt（提示），告訴他要做什么事情，按照什么模版進(jìn)行輸出：

你是一位瀏覽器頁面自動化助手。

你可以使用的Action包括:
openLink(元素href屬性)
click(元素Id)

你將收到一個需要執(zhí)行的任務(wù)以及一段DOM字符串。你需要選擇最合適的Action，你最多可以重試一次失敗的操作。
下面是你收到任務(wù)后響應(yīng)的例子:
<Thought>我應(yīng)該點擊添加購物車的按鈕</Thought>
<Action>click(223)</Action>
你必須始終包含<Thought>和<Action>打開/關(guān)閉標(biāo)簽，否則你的響應(yīng)將被標(biāo)記為無效。

ChatGPT收到這個prompt后，就會對這個提示進(jìn)行上下文設(shè)定并將自己對于該提示的理解輸出。我們可以看看ChatGPT的理解對不對，如下圖所示：

ChatGPT實現(xiàn)HTML網(wǎng)頁文本提取

可以看到，ChatGPT成功的理解了我們?yōu)樗O(shè)定的prompt，接下來我們就要測試一下他能不能正確執(zhí)行我們的指令了。我們在輸入框中輸入如下內(nèi)容：

用戶發(fā)起了如下任務(wù):
請打開文章鏈接

下面是頁面內(nèi)容：
<div data-v-7ce5c5d7="" class="list">
<div data-v-28d01aa9="" data-v-7ce5c5d7="" article-item="" class="article-item image-position-right">
    <div data-v-28d01aa9="" item-main="" class="item-main">
    <div data-v-28d01aa9="" data-icon="" data-video="" class="image"><img data-v-ae3ef2f2="" data-v-28d01aa9=""
...

接下來看看ChatGPT如何應(yīng)對這個任務(wù)，如下圖所示：

ChatGPT實現(xiàn)HTML網(wǎng)頁文本提取

我們看到，ChatGPT正確的識別出了HTML文本中

<a data-v-65bacb95="" data-v-28d01aa9="" com-article-title=""  target="_blank" rel=""  class="com-article-title">

這個link標(biāo)簽中的href屬性，并將其作為參數(shù)傳入了openLink()函數(shù)中，并且按照我們設(shè)定的輸出模版，將和正確的輸出到頁面上，這樣我們就可以把這些統(tǒng)一格式的指令片段進(jìn)行解析，然后按照需求做相應(yīng)的處理了。

我們可以預(yù)見，這種利用ChatGPT實現(xiàn)的網(wǎng)頁自動化技術(shù)，未來會有更多的應(yīng)用和創(chuàng)新，可以使得基于網(wǎng)頁的工具更加智能化，更加便捷，應(yīng)用的場景也會越來越廣泛。文章來源地址http://www.zghlxwxcb.cn/news/detail-433277.html

到了這里，關(guān)于ChatGPT實現(xiàn)HTML網(wǎng)頁文本提取的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進(jìn)行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費用

Python爬蟲框架之Selenium庫入門：用Python實現(xiàn)網(wǎng)頁自動化測試詳解
是否還在為網(wǎng)頁測試而煩惱？是否還在為重復(fù)的點擊、等待而勞累？試試強大的 Selenium ！讓你的網(wǎng)頁自動化測試變得輕松有趣！ Selenium 是一個強大的自動化測試工具，它可以讓你直接操控瀏覽器，完成各種與網(wǎng)頁交互的任務(wù)。通過使用 Python 的 Selenium 庫，你可以高效地實現(xiàn)
2024年02月10日
瀏覽(24)
以效率為導(dǎo)向：用ChatGPT和HttpRunner實現(xiàn)敏捷自動化測試（二）
在上一篇文章：利用ChatGPT提升測試工作效率——測試工程師的新利器(一)中，我們提到了如何通過chatGPT生成單接口測試用例，然后再讓chatGPT去根據(jù)測試用例去生成接口自動化腳本。本篇文章將詳細(xì)講解一下我們團(tuán)隊內(nèi)部在遇到業(yè)務(wù)痛點時如何利用Httprunner框架進(jìn)行接口自動化
2024年02月08日
瀏覽(24)
chatgpt賦能python：Python搶商品：自動化實現(xiàn)秒殺購物的利器
隨著互聯(lián)網(wǎng)和電商的高度融合，電商平臺受到越來越多的用戶關(guān)注和青睞。在線購物已成為人們?nèi)粘Ｉ钪斜夭豢缮俚囊徊糠?，不管是網(wǎng)購小白還是技術(shù)大牛，都喜歡在各種平臺上刷到想要的商品。但往往受到“秒殺”、“售罄”等各種限制，想要搶到理想商品并非易事。隨
2024年02月09日
瀏覽(92)
如何使用Python自動化測試工具Selenium進(jìn)行網(wǎng)頁自動化？
Selenium 是一個流行的Web自動化測試框架，它支持多種編程語言和瀏覽器，并提供了豐富的API和工具來模擬用戶在瀏覽器中的行為。 Selenium可以通過代碼驅(qū)動瀏覽器自動化測試流程，包括頁面導(dǎo)航、元素查找、數(shù)據(jù)填充、點擊操作等。與PyAutoGUI和AutoIt相比， Selenium更適合于處
2023年04月09日
瀏覽(111)
python 自動化數(shù)據(jù)提取之正則表達(dá)式
?前? ? 言我們在做接口自動化的時候，處理接口依賴的相關(guān)數(shù)據(jù)時，通常會使用正則表達(dá)式來進(jìn)行提取相關(guān)的數(shù)據(jù)，今天在這邊和大家聊聊如何在python中使用正則表達(dá)式。正則表達(dá)式，又稱正規(guī)表示式、正規(guī)表示法、正規(guī)表達(dá)式、規(guī)則表達(dá)式、常規(guī)表示法（英語：Regular
2024年02月14日
瀏覽(24)
Python辦公自動化 – 自動化文本翻譯和Oracle數(shù)據(jù)庫操作
以下是往期的文章目錄，需要可以查看哦。 Python辦公自動化 – Excel和Word的操作運用 Python辦公自動化 – Python發(fā)送電子郵件和Outlook的集成 Python辦公自動化 – 對PDF文檔和PPT文檔的處理 Python辦公自動化 – 對Excel文檔和數(shù)據(jù)庫的操作運用、設(shè)置計劃任務(wù) Python辦公自動化 – 對
2024年01月17日
瀏覽(24)
Python實戰(zhàn)之?dāng)?shù)據(jù)表提取和下載自動化
在網(wǎng)絡(luò)爬蟲領(lǐng)域，動態(tài)渲染類型頁面的數(shù)據(jù)提取和下載自動化是一個常見的挑戰(zhàn)。本文將介紹如何利用Pyppeteer庫完成這一任務(wù)，幫助您輕松地提取動態(tài)渲染頁面中的數(shù)據(jù)表并實現(xiàn)下載自動化。一、環(huán)境準(zhǔn)備首先，確保您已經(jīng)安裝了Python環(huán)境。接下來，我們需要安裝 pyppeteer
2024年02月11日
瀏覽(33)
Selenium基礎(chǔ)：自動化你的網(wǎng)頁交互！
在構(gòu)建Python爬蟲的過程中，你可能會遇到需要與網(wǎng)頁進(jìn)行交互的情況，比如填充表單、點擊按鈕等。這時，Selenium庫就成了你的有力工具。Selenium是一個強大的工具，能夠模擬用戶在網(wǎng)頁上的各種操作。本篇博客將向你介紹Selenium的基礎(chǔ)用法，以及如何在你的爬蟲中使用Seleni
2024年03月22日
瀏覽(24)
Selenium: 自動化測試和網(wǎng)頁操作的利器
Selenium是一個自動化測試工具，最初是為Web應(yīng)用程序自動化測試而開發(fā)的，但也可以用于其他用途，如數(shù)據(jù)挖掘、爬蟲等。Selenium可以模擬用戶操作，如點擊、輸入、滾動等，并獲取頁面上的信息。它支持多種編程語言，包括Java、Python、C#等。在本文中，我們將介紹Selenium在
2024年02月04日
瀏覽(25)
Python Selenium網(wǎng)頁自動化利器使用詳解
Selenium是一個自動化測試工具，主要用于模擬用戶在Web應(yīng)用程序中的交互操作。雖然它最初被設(shè)計用于自動化測試，但也被廣泛用于網(wǎng)頁數(shù)據(jù)抓取、網(wǎng)頁自動化操作和網(wǎng)頁測試。首先，需要安裝Selenium庫。使用pip來安裝Selenium： 1 pip install selenium 此外，需要下載并安裝一個瀏覽
2024年01月18日
瀏覽(100)

<option id="iqlck"></option>

<th id="iqlck"><rt id="iqlck"><strong id="iqlck"></strong></rt></th>