国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

ChatGPT實現(xiàn)HTML網(wǎng)頁文本提取

這篇具有很好參考價值的文章主要介紹了ChatGPT實現(xiàn)HTML網(wǎng)頁文本提取。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

網(wǎng)頁自動化工具

既然ChatGPT對于編程語言有非常強大的理解能力,那么它是否可以用來自動化地處理網(wǎng)頁呢?答案是肯定的。ChatGPT可以使用機器學(xué)習(xí)算法來識別網(wǎng)頁元素中的文本,并抽取出有用的信息。

例如我們提供一段層數(shù)比較多的相對來說較為復(fù)雜的 HTML 代碼,如下圖所示:

ChatGPT實現(xiàn)HTML網(wǎng)頁文本提取

圖中我們用紅框標(biāo)出的部分是需要抽取的文本,我們可以要求 ChatGPT 幫我們抽取出其中的文本,看看是否如我們期望的,只將紅框中的部分抽取出來。如下圖所示:

ChatGPT實現(xiàn)HTML網(wǎng)頁文本提取

我們看到,ChatGPT成功地將紅框中的文本抽取出來了,而且沒有將 HTML 片段中

<img data-v-ae3ef2f2="" data-v-28d01aa9="" src="https://static001.infoq.cn/resource/image/c1/ab/c1a96a0372f54a63493051b05b3d5aab.png" alt="圖片默認(rèn)文字:馬斯克開源Twitter算法!推薦機制正式公開,GitHub Star數(shù)已破萬" class="article-image">

圖片標(biāo)簽的默認(rèn)顯示文字抽取出來,可以說對于文本部分的識別成功率還是不錯的,后續(xù)我們就可以基于這些抽取出來的文本進(jìn)行進(jìn)一步的處理了。

ChatGPT對于 HTML 的理解不僅僅在于文本的抽取,它可以識別整個 HTML 的結(jié)構(gòu),基于這個能力,我們就可以要求 ChatGPT 幫我們?nèi)崿F(xiàn)一些更有趣的功能。比如我們希望通過輸入文本指令,可以控制網(wǎng)頁中的元素進(jìn)行一些操作,例如點擊、輸入、滾動等等,那么我們可以通過 ChatGPT 對指令進(jìn)行解析并根據(jù)預(yù)設(shè)的操作和要求,幫助我們按照模版生成相應(yīng)的指令片段,這樣我們后續(xù)就可以根據(jù)這些統(tǒng)一格式的指令片段進(jìn)行解析并做相應(yīng)的處理了。例如,我們可以先給ChatGPT設(shè)定一個prompt(提示),告訴他要做什么事情,按照什么模版進(jìn)行輸出:

你是一位瀏覽器頁面自動化助手。

你可以使用的Action包括:
openLink(元素href屬性)
click(元素Id)

你將收到一個需要執(zhí)行的任務(wù)以及一段DOM字符串。你需要選擇最合適的Action,你最多可以重試一次失敗的操作。
下面是你收到任務(wù)后響應(yīng)的例子:
<Thought>我應(yīng)該點擊添加購物車的按鈕</Thought>
<Action>click(223)</Action>
你必須始終包含<Thought>和<Action>打開/關(guān)閉標(biāo)簽,否則你的響應(yīng)將被標(biāo)記為無效。

ChatGPT收到這個prompt后,就會對這個提示進(jìn)行上下文設(shè)定并將自己對于該提示的理解輸出。我們可以看看ChatGPT的理解對不對,如下圖所示:

ChatGPT實現(xiàn)HTML網(wǎng)頁文本提取

可以看到,ChatGPT成功的理解了我們?yōu)樗O(shè)定的prompt,接下來我們就要測試一下他能不能正確執(zhí)行我們的指令了。我們在輸入框中輸入如下內(nèi)容:

用戶發(fā)起了如下任務(wù):
請打開文章鏈接

下面是頁面內(nèi)容:
<div data-v-7ce5c5d7="" class="list">
<div data-v-28d01aa9="" data-v-7ce5c5d7="" article-item="" class="article-item image-position-right">
    <div data-v-28d01aa9="" item-main="" class="item-main">
    <div data-v-28d01aa9="" data-icon="" data-video="" class="image"><img data-v-ae3ef2f2="" data-v-28d01aa9=""
...

接下來看看ChatGPT如何應(yīng)對這個任務(wù),如下圖所示:

ChatGPT實現(xiàn)HTML網(wǎng)頁文本提取

我們看到,ChatGPT正確的識別出了HTML文本中

<a data-v-65bacb95="" data-v-28d01aa9="" com-article-title=""  target="_blank" rel=""  class="com-article-title">

這個link標(biāo)簽中的href屬性,并將其作為參數(shù)傳入了openLink()函數(shù)中,并且按照我們設(shè)定的輸出模版,將和正確的輸出到頁面上,這樣我們就可以把這些統(tǒng)一格式的指令片段進(jìn)行解析,然后按照需求做相應(yīng)的處理了。

我們可以預(yù)見,這種利用ChatGPT實現(xiàn)的網(wǎng)頁自動化技術(shù),未來會有更多的應(yīng)用和創(chuàng)新,可以使得基于網(wǎng)頁的工具更加智能化,更加便捷,應(yīng)用的場景也會越來越廣泛。文章來源地址http://www.zghlxwxcb.cn/news/detail-433277.html

到了這里,關(guān)于ChatGPT實現(xiàn)HTML網(wǎng)頁文本提取的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進(jìn)行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • Python爬蟲框架之Selenium庫入門:用Python實現(xiàn)網(wǎng)頁自動化測試詳解

    Python爬蟲框架之Selenium庫入門:用Python實現(xiàn)網(wǎng)頁自動化測試詳解

    是否還在為網(wǎng)頁測試而煩惱?是否還在為重復(fù)的點擊、等待而勞累?試試強大的 Selenium !讓你的網(wǎng)頁自動化測試變得輕松有趣! Selenium 是一個強大的自動化測試工具,它可以讓你直接操控瀏覽器,完成各種與網(wǎng)頁交互的任務(wù)。通過使用 Python 的 Selenium 庫,你可以高效地實現(xiàn)

    2024年02月10日
    瀏覽(24)
  • 以效率為導(dǎo)向:用ChatGPT和HttpRunner實現(xiàn)敏捷自動化測試(二)

    在上一篇文章: 利用ChatGPT提升測試工作效率——測試工程師的新利器(一)中,我們提到了如何通過chatGPT生成單接口測試用例,然后再讓chatGPT去根據(jù)測試用例去生成接口自動化腳本。本篇文章將詳細(xì)講解一下我們團(tuán)隊內(nèi)部在遇到業(yè)務(wù)痛點時如何利用Httprunner框架進(jìn)行接口自動化

    2024年02月08日
    瀏覽(24)
  • chatgpt賦能python:Python搶商品:自動化實現(xiàn)秒殺購物的利器

    隨著互聯(lián)網(wǎng)和電商的高度融合,電商平臺受到越來越多的用戶關(guān)注和青睞。在線購物已成為人們?nèi)粘I钪斜夭豢缮俚囊徊糠?,不管是網(wǎng)購小白還是技術(shù)大牛,都喜歡在各種平臺上刷到想要的商品。但往往受到“秒殺”、“售罄”等各種限制,想要搶到理想商品并非易事。隨

    2024年02月09日
    瀏覽(92)
  • 如何使用Python自動化測試工具Selenium進(jìn)行網(wǎng)頁自動化?

    如何使用Python自動化測試工具Selenium進(jìn)行網(wǎng)頁自動化?

    Selenium 是一個流行的Web自動化測試框架, 它支持多種編程語言和瀏覽器,并提供了豐富的API和工具來模擬用戶在瀏覽器中的行為 。 Selenium可以通過代碼驅(qū)動瀏覽器自動化測試流程,包括頁面導(dǎo)航、元素查找、數(shù)據(jù)填充、點擊操作等。 與PyAutoGUI和AutoIt相比, Selenium更適合于處

    2023年04月09日
    瀏覽(111)
  • python 自動化數(shù)據(jù)提取之正則表達(dá)式

    ?前? ? 言 我們在做接口自動化的時候,處理接口依賴的相關(guān)數(shù)據(jù)時,通常會使用正則表達(dá)式來進(jìn)行提取相關(guān)的數(shù)據(jù),今天在這邊和大家聊聊如何在python中使用正則表達(dá)式。 正則表達(dá)式 ,又稱正規(guī)表示式、正規(guī)表示法、正規(guī)表達(dá)式、規(guī)則表達(dá)式、常規(guī)表示法(英語:Regular

    2024年02月14日
    瀏覽(24)
  • Python辦公自動化 – 自動化文本翻譯和Oracle數(shù)據(jù)庫操作

    Python辦公自動化 – 自動化文本翻譯和Oracle數(shù)據(jù)庫操作

    以下是往期的文章目錄,需要可以查看哦。 Python辦公自動化 – Excel和Word的操作運用 Python辦公自動化 – Python發(fā)送電子郵件和Outlook的集成 Python辦公自動化 – 對PDF文檔和PPT文檔的處理 Python辦公自動化 – 對Excel文檔和數(shù)據(jù)庫的操作運用、設(shè)置計劃任務(wù) Python辦公自動化 – 對

    2024年01月17日
    瀏覽(24)
  • Python實戰(zhàn)之?dāng)?shù)據(jù)表提取和下載自動化

    Python實戰(zhàn)之?dāng)?shù)據(jù)表提取和下載自動化

    在網(wǎng)絡(luò)爬蟲領(lǐng)域,動態(tài)渲染類型頁面的數(shù)據(jù)提取和下載自動化是一個常見的挑戰(zhàn)。本文將介紹如何利用Pyppeteer庫完成這一任務(wù),幫助您輕松地提取動態(tài)渲染頁面中的數(shù)據(jù)表并實現(xiàn)下載自動化。 一、環(huán)境準(zhǔn)備 首先,確保您已經(jīng)安裝了Python環(huán)境。接下來,我們需要安裝 pyppeteer

    2024年02月11日
    瀏覽(33)
  • Selenium基礎(chǔ):自動化你的網(wǎng)頁交互!

    Selenium基礎(chǔ):自動化你的網(wǎng)頁交互!

    在構(gòu)建Python爬蟲的過程中,你可能會遇到需要與網(wǎng)頁進(jìn)行交互的情況,比如填充表單、點擊按鈕等。這時,Selenium庫就成了你的有力工具。Selenium是一個強大的工具,能夠模擬用戶在網(wǎng)頁上的各種操作。本篇博客將向你介紹Selenium的基礎(chǔ)用法,以及如何在你的爬蟲中使用Seleni

    2024年03月22日
    瀏覽(24)
  • Selenium: 自動化測試和網(wǎng)頁操作的利器

    Selenium是一個自動化測試工具,最初是為Web應(yīng)用程序自動化測試而開發(fā)的,但也可以用于其他用途,如數(shù)據(jù)挖掘、爬蟲等。Selenium可以模擬用戶操作,如點擊、輸入、滾動等,并獲取頁面上的信息。它支持多種編程語言,包括Java、Python、C#等。 在本文中,我們將介紹Selenium在

    2024年02月04日
    瀏覽(25)
  • Python Selenium網(wǎng)頁自動化利器使用詳解

    Python Selenium網(wǎng)頁自動化利器使用詳解

    Selenium是一個自動化測試工具,主要用于模擬用戶在Web應(yīng)用程序中的交互操作。雖然它最初被設(shè)計用于自動化測試,但也被廣泛用于網(wǎng)頁數(shù)據(jù)抓取、網(wǎng)頁自動化操作和網(wǎng)頁測試。 首先,需要安裝Selenium庫。使用pip來安裝Selenium: 1 pip install selenium 此外,需要下載并安裝一個瀏覽

    2024年01月18日
    瀏覽(100)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包