網(wǎng)頁自動化工具
既然ChatGPT對于編程語言有非常強大的理解能力,那么它是否可以用來自動化地處理網(wǎng)頁呢?答案是肯定的。ChatGPT可以使用機器學(xué)習(xí)算法來識別網(wǎng)頁元素中的文本,并抽取出有用的信息。
例如我們提供一段層數(shù)比較多的相對來說較為復(fù)雜的 HTML 代碼,如下圖所示:
圖中我們用紅框標(biāo)出的部分是需要抽取的文本,我們可以要求 ChatGPT 幫我們抽取出其中的文本,看看是否如我們期望的,只將紅框中的部分抽取出來。如下圖所示:
我們看到,ChatGPT成功地將紅框中的文本抽取出來了,而且沒有將 HTML 片段中
<img data-v-ae3ef2f2="" data-v-28d01aa9="" src="https://static001.infoq.cn/resource/image/c1/ab/c1a96a0372f54a63493051b05b3d5aab.png" alt="圖片默認(rèn)文字:馬斯克開源Twitter算法!推薦機制正式公開,GitHub Star數(shù)已破萬" class="article-image">
圖片標(biāo)簽的默認(rèn)顯示文字抽取出來,可以說對于文本部分的識別成功率還是不錯的,后續(xù)我們就可以基于這些抽取出來的文本進(jìn)行進(jìn)一步的處理了。
ChatGPT對于 HTML 的理解不僅僅在于文本的抽取,它可以識別整個 HTML 的結(jié)構(gòu),基于這個能力,我們就可以要求 ChatGPT 幫我們?nèi)崿F(xiàn)一些更有趣的功能。比如我們希望通過輸入文本指令,可以控制網(wǎng)頁中的元素進(jìn)行一些操作,例如點擊、輸入、滾動等等,那么我們可以通過 ChatGPT 對指令進(jìn)行解析并根據(jù)預(yù)設(shè)的操作和要求,幫助我們按照模版生成相應(yīng)的指令片段,這樣我們后續(xù)就可以根據(jù)這些統(tǒng)一格式的指令片段進(jìn)行解析并做相應(yīng)的處理了。例如,我們可以先給ChatGPT設(shè)定一個prompt(提示),告訴他要做什么事情,按照什么模版進(jìn)行輸出:
你是一位瀏覽器頁面自動化助手。 你可以使用的Action包括: openLink(元素href屬性) click(元素Id) 你將收到一個需要執(zhí)行的任務(wù)以及一段DOM字符串。你需要選擇最合適的Action,你最多可以重試一次失敗的操作。 下面是你收到任務(wù)后響應(yīng)的例子: <Thought>我應(yīng)該點擊添加購物車的按鈕</Thought> <Action>click(223)</Action> 你必須始終包含<Thought>和<Action>打開/關(guān)閉標(biāo)簽,否則你的響應(yīng)將被標(biāo)記為無效。
ChatGPT收到這個prompt后,就會對這個提示進(jìn)行上下文設(shè)定并將自己對于該提示的理解輸出。我們可以看看ChatGPT的理解對不對,如下圖所示:
可以看到,ChatGPT成功的理解了我們?yōu)樗O(shè)定的prompt,接下來我們就要測試一下他能不能正確執(zhí)行我們的指令了。我們在輸入框中輸入如下內(nèi)容:
用戶發(fā)起了如下任務(wù): 請打開文章鏈接 下面是頁面內(nèi)容: <div data-v-7ce5c5d7="" class="list"> <div data-v-28d01aa9="" data-v-7ce5c5d7="" article-item="" class="article-item image-position-right"> <div data-v-28d01aa9="" item-main="" class="item-main"> <div data-v-28d01aa9="" data-icon="" data-video="" class="image"><img data-v-ae3ef2f2="" data-v-28d01aa9="" ...
接下來看看ChatGPT如何應(yīng)對這個任務(wù),如下圖所示:
我們看到,ChatGPT正確的識別出了HTML文本中
<a data-v-65bacb95="" data-v-28d01aa9="" com-article-title="" target="_blank" rel="" class="com-article-title">
這個link標(biāo)簽中的href屬性,并將其作為參數(shù)傳入了openLink()函數(shù)中,并且按照我們設(shè)定的輸出模版,將和正確的輸出到頁面上,這樣我們就可以把這些統(tǒng)一格式的指令片段進(jìn)行解析,然后按照需求做相應(yīng)的處理了。文章來源:http://www.zghlxwxcb.cn/news/detail-433277.html
我們可以預(yù)見,這種利用ChatGPT實現(xiàn)的網(wǎng)頁自動化技術(shù),未來會有更多的應(yīng)用和創(chuàng)新,可以使得基于網(wǎng)頁的工具更加智能化,更加便捷,應(yīng)用的場景也會越來越廣泛。文章來源地址http://www.zghlxwxcb.cn/news/detail-433277.html
到了這里,關(guān)于ChatGPT實現(xiàn)HTML網(wǎng)頁文本提取的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!