国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

_{<dl id="ajxrc"><pre id="ajxrc"></pre></dl>}

<input id="ajxrc"><cite id="ajxrc"><dl id="ajxrc"></dl></cite></input>

<tr id="ajxrc"><noframes id="ajxrc"><tr id="ajxrc"></tr>

<mark id="ajxrc"><pre id="ajxrc"></pre></mark>

<pre id="ajxrc"></pre>

下一代網(wǎng)絡(luò)爬蟲：AI agents

2年前作者：PlatonAI分類：Toy博客閱讀(101)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了下一代網(wǎng)絡(luò)爬蟲：AI agents。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

簡介

下一代網(wǎng)絡(luò)爬蟲是爬蟲級(jí) AI agents。

由于現(xiàn)代網(wǎng)頁的復(fù)雜性，現(xiàn)代爬蟲都傾向于使用高性能分布式 RPA，完全和真人一樣訪問網(wǎng)頁，采集數(shù)據(jù)。由于 AI 的成熟，RPA 工具也在升級(jí)為 AI agents。因此，網(wǎng)頁爬蟲的發(fā)展趨勢是爬蟲級(jí)智能體(AI agents)，或者我喜歡稱為數(shù)字超人。

高性能分布式 RPA

互聯(lián)網(wǎng)數(shù)據(jù)收集現(xiàn)在都使用高性能分布式 RPA。搭載 AI 的 RPA 也是 AI agents。爬蟲級(jí) RPA 可以完全和你本人一樣操作瀏覽器，為你創(chuàng)建一個(gè)智能體軍團(tuán)，在網(wǎng)上自由沖浪，完整精確采集數(shù)據(jù)和知識(shí)。

商用級(jí)數(shù)據(jù)收集非常困難，步步維艱，但凡對(duì)數(shù)據(jù)質(zhì)量、調(diào)度質(zhì)量、采集性能、數(shù)據(jù)規(guī)模、綜合成本有一些要求，都面臨著成千上萬個(gè)困難。

幸運(yùn)的是，我們現(xiàn)在有了 AI + RPA 的成熟方案完整解決這些難題。

PulsarRPA?的性能非常高，成本非常低，一臺(tái)普通機(jī)器每天訪問十萬幾十萬網(wǎng)頁，采集數(shù)千萬上億數(shù)據(jù)點(diǎn)，毫無壓力。

高性能分布式 RPA 在網(wǎng)頁上執(zhí)行了交互動(dòng)作，保證了所有字段均完整呈現(xiàn)在頁面上，每個(gè)頁面會(huì)有 100~200 個(gè)高價(jià)值字段被提取出來。一臺(tái)機(jī)器一天可以采集1700萬到3400萬個(gè)字段。

下一代網(wǎng)絡(luò)爬蟲：AI agents,人工智能,數(shù)據(jù)挖掘,rpa,爬蟲

下面的視頻，介紹了如何用 PulsarRPA?完整精確采集最復(fù)雜的網(wǎng)站數(shù)據(jù)，具備最嚴(yán)格的質(zhì)量保證體系、滿足最嚴(yán)苛的系統(tǒng)性能和總體成本要求。

PulsarRPA - 適用于網(wǎng)絡(luò)爬蟲和 AI agents 的高性能分布式 RPAhttps://blog.csdn.net/weixin_48738961/article/details/135700524?PulsarRPA 是目前應(yīng)用于大規(guī)模數(shù)據(jù)采集，唯一成熟的開源 RPA。

商用級(jí)項(xiàng)目示例

作為 PulsarRPA?的一個(gè)真實(shí)商用項(xiàng)目示例，Exotic Amazon （國內(nèi)鏡像）是采集 amazon 全球網(wǎng)站的完整解決方案，開箱即用，滿足最高標(biāo)準(zhǔn)的數(shù)據(jù)質(zhì)量要求、最高標(biāo)準(zhǔn)的采集性能要求、最高標(biāo)準(zhǔn)的綜合成本要求，包含亞馬遜大多數(shù)數(shù)據(jù)類型，它將永久免費(fèi)提供并開放源代碼。

作為一款爬蟲級(jí) RPA，PulsarRPA?已經(jīng)累計(jì)為各種客戶采集近百億網(wǎng)頁。其中包括了最復(fù)雜的數(shù)據(jù)采集需求，譬如 amazon 全球 20 大站點(diǎn)的完整數(shù)據(jù)點(diǎn)，以及 google 全球站點(diǎn)的完整數(shù)據(jù)點(diǎn)。

智能體軍團(tuán)

在如此嚴(yán)苛的需求錘煉之后，PulsarRPA?已經(jīng)非常成熟。目前我們的產(chǎn)品重心是真正意義上的 AI 爬蟲。

AI 爬蟲指的是一組智能體，也就是 AI agents，它能夠像真人一樣網(wǎng)上沖浪，閱讀理解在線網(wǎng)頁，并且可以完全自動(dòng)地分析網(wǎng)頁，輸出結(jié)構(gòu)化數(shù)據(jù)或者知識(shí)圖譜。

Platon.ai 的高性能分布式瀏覽器，可以幫助大語言模型無障礙訪問互聯(lián)網(wǎng)，獲得實(shí)時(shí)、干凈的網(wǎng)頁數(shù)據(jù)。

Platon.ai 基于機(jī)器學(xué)習(xí)技術(shù)采集的數(shù)據(jù)，可以支持各種各樣的數(shù)據(jù)業(yè)務(wù)，譬如電商數(shù)據(jù)分析，大語言模型預(yù)訓(xùn)練、微調(diào)、提示詞工程、檢索增強(qiáng)生成(RAG)等。

無監(jiān)督學(xué)習(xí)數(shù)據(jù)提取

互聯(lián)網(wǎng)數(shù)據(jù)充滿噪音，platon.ai 的技術(shù)幫助我們自動(dòng)將互聯(lián)網(wǎng)網(wǎng)頁轉(zhuǎn)變成干凈的結(jié)構(gòu)化數(shù)據(jù)。

在傳統(tǒng)上，我們需要使用 PulsarRPA，或者 selenium 這樣的瀏覽器自動(dòng)化工具，花費(fèi)大量時(shí)間，編寫X-SQL、CSSPath、XPath、正則表達(dá)式等，來提取網(wǎng)頁數(shù)據(jù)，將網(wǎng)頁轉(zhuǎn)變成可以直接分析的結(jié)構(gòu)化數(shù)據(jù)。

使用 platon.ai 的 AI 爬蟲 PulsarRPAPro，可以像真人一樣無障礙網(wǎng)上沖浪，自動(dòng)提取網(wǎng)頁中的所有字段，輸出結(jié)構(gòu)化數(shù)據(jù)。

PulsarRPAPro-AI高速采集并自動(dòng)提取網(wǎng)頁數(shù)據(jù)-CSDN博客https://blog.csdn.net/weixin_48738961/article/details/135701063執(zhí)行 PulsarRPAPro?后，系統(tǒng)將打開入口頁面，和網(wǎng)頁進(jìn)行交互，等待延遲加載的網(wǎng)頁內(nèi)容也完整呈現(xiàn)。

在所有網(wǎng)頁內(nèi)容完整呈現(xiàn)后，PulsarRPAPro?智能地找到了所有商品鏈接，并逐一訪問這些鏈接，瀏覽商品頁面。

在網(wǎng)頁上，凡人眼可見的數(shù)據(jù)，幾乎都能夠被完整、精確提取出來，譬如，標(biāo)題、價(jià)格、折扣、優(yōu)惠、配送等等關(guān)鍵字段。

和真人不同的是，PulsarRPAPro?訪問速度非常快，訪問的網(wǎng)頁數(shù)量沒有限制，單機(jī)每天訪問十萬、幾十萬網(wǎng)頁，采集數(shù)千萬、上億數(shù)據(jù)點(diǎn)，毫無壓力。

訪問所有網(wǎng)頁后，PulsarRPAPro?直接將網(wǎng)頁上所有的數(shù)據(jù)轉(zhuǎn)變?yōu)楸砀?，并且保存為后續(xù)分析所需的格式。

監(jiān)督學(xué)習(xí)數(shù)據(jù)提取

PulsarRPAPro?使用多種機(jī)器學(xué)習(xí)技術(shù)，來將網(wǎng)頁內(nèi)容提取工作人效提升 1000 倍以上，而人員技能要求也幾乎降為零。

下一代網(wǎng)絡(luò)爬蟲：AI agents,人工智能,數(shù)據(jù)挖掘,rpa,爬蟲

如果對(duì)數(shù)據(jù)質(zhì)量有進(jìn)一步要求，PulsarRPA 也開發(fā)了監(jiān)督學(xué)習(xí)技術(shù)來提取網(wǎng)頁，一次訓(xùn)練，永久有效。

PulsarRPAPro-基于監(jiān)督學(xué)習(xí)算法高精度提取網(wǎng)頁數(shù)據(jù)-CSDN博客文章瀏覽閱讀125次，點(diǎn)贊2次，收藏3次。使用無監(jiān)督學(xué)習(xí)+監(jiān)督學(xué)習(xí)進(jìn)行網(wǎng)頁數(shù)據(jù)提取，我們將網(wǎng)頁數(shù)據(jù)提取的人效提升了1000倍以上，提升了數(shù)據(jù)提取準(zhǔn)確率，降低了人員技能要求，同時(shí)也不再需要頻繁維護(hù)數(shù)據(jù)提取規(guī)則。https://blog.csdn.net/weixin_48738961/article/details/135702207由于我們能夠無監(jiān)督學(xué)習(xí)將網(wǎng)頁轉(zhuǎn)變成表格，我們只需要在這個(gè)表格上處理，簡單剔除錯(cuò)誤數(shù)據(jù)，并給每一列字段一個(gè)名字，這就形成了可以用于訓(xùn)練監(jiān)督學(xué)習(xí)模型的大數(shù)據(jù)集。這個(gè)過程不需要任何專業(yè)知識(shí)，初中知識(shí)儲(chǔ)備就可以勝任。

使用監(jiān)督學(xué)習(xí)技術(shù)，絕大多數(shù)字段，準(zhǔn)確率和召回率均超過99%。

未來演化

在下一步，PulsarRPA 將引入大語言模型，提供自然語言交互界面，優(yōu)化從數(shù)據(jù)采集、UI 操作、自主決策、數(shù)據(jù)標(biāo)注、數(shù)據(jù)導(dǎo)出等各個(gè)環(huán)節(jié)的用戶體驗(yàn)，并提供一定自主決策能力。

代碼示例

大多數(shù)抓取嘗試可以從幾乎一行代碼開始

fun main() = PulsarContexts.createSession().scrapeOutPages( "https://www.amazon.com/", "-outLink a[href~=/dp/]", listOf("#title", "#acrCustomerReviewText"))

上面的代碼從一組產(chǎn)品頁面中抓取由 css 選擇器 #title 和 #acrCustomerReviewText 指定的字段。示例代碼可以在這里找到：kotlin，java，國內(nèi)鏡像：kotlin，java。

大多數(shù)生產(chǎn)環(huán)境數(shù)據(jù)采集項(xiàng)目可以從以下代碼片段開始

fun main() {
    val context = PulsarContexts.create()

    val parseHandler = { _: WebPage, document: Document ->
        // use the document
        // ...
        // and then extract further hyperlinks
        context.submitAll(document.selectHyperlinks("a[href~=/dp/]"))
    }
    val urls = LinkExtractors.fromResource("seeds10.txt")
        .map { ParsableHyperlink("$it -refresh", parseHandler) }
    context.submitAll(urls).await()
}

示例代碼：kotlin，java，國內(nèi)鏡像：kotlin，java。

最復(fù)雜的數(shù)據(jù)采集項(xiàng)目可以使用 RPA 模式

最復(fù)雜的數(shù)據(jù)采集項(xiàng)目往往需要和網(wǎng)頁進(jìn)行復(fù)雜交互，為此我們提供了簡潔強(qiáng)大的 API。以下是一個(gè)典型的 RPA 代碼片段，它是從頂級(jí)電子商務(wù)網(wǎng)站收集數(shù)據(jù)所必需的：

val options = session.options(args)
val event = options.event.browseEvent
event.onBrowserLaunched.addLast { page, driver ->
    // warp up the browser to avoid being blocked by the website,
    // or choose the global settings, such as your location.
    warnUpBrowser(page, driver)
}
event.onWillFetch.addLast { page, driver ->
    // have to visit a referrer page before we can visit the desired page
    waitForReferrer(page, driver)
    // websites may prevent us from opening too many pages at a time, so we should open links one by one.
    waitForPreviousPage(page, driver)
}
event.onWillCheckDocumentState.addLast { page, driver ->
    // wait for a special fields to appear on the page
    driver.waitForSelector("body h1[itemprop=name]")
    // close the mask layer, it might be promotions, ads, or something else.
    driver.click(".mask-layer-close-button")
}
// visit the URL and trigger events
session.load(url, options)

示例代碼: kotlin，國內(nèi)鏡像。

Web 數(shù)據(jù)抽取難題可以使用機(jī)器學(xué)習(xí)來解決

使用無監(jiān)督學(xué)習(xí)+監(jiān)督學(xué)習(xí)進(jìn)行網(wǎng)頁數(shù)據(jù)提取，我們將網(wǎng)頁數(shù)據(jù)提取的人效提升了1000倍以上，提升了數(shù)據(jù)提取準(zhǔn)確率，降低了人員技能要求，同時(shí)也不再需要頻繁維護(hù)數(shù)據(jù)提取規(guī)則。

Web 數(shù)據(jù)抽取難題也可以用 X-SQL 來解決

除了使用機(jī)器學(xué)習(xí)手段提取人眼可見數(shù)據(jù)外，一些人眼不可見數(shù)據(jù)、頁面源代碼中的數(shù)據(jù)、其他流經(jīng)瀏覽器的數(shù)據(jù)，也可以使用 X-SQL 來提取。

現(xiàn)在，我們?cè)诖笮蛿?shù)據(jù)采集項(xiàng)目中，所有提取規(guī)則都是用 X-SQL 編寫的，數(shù)據(jù)類型轉(zhuǎn)換、數(shù)據(jù)清理等工作也由強(qiáng)大的 X-SQL 內(nèi)聯(lián)處理。編寫 X-SQL 做數(shù)據(jù)采集項(xiàng)目的體驗(yàn)，就像傳統(tǒng)的 CRUD 項(xiàng)目一樣簡單高效。一個(gè)很好的例子是 x-asin.sql（國內(nèi)鏡像），它從每個(gè)產(chǎn)品頁面中提取 70 多個(gè)字段。

select
      dom_first_text(dom, '#productTitle') as title,
      dom_first_text(dom, '#bylineInfo') as brand,
      dom_first_text(dom, '#price tr td:matches(^Price) ~ td, #corePrice_desktop tr td:matches(^Price) ~ td') as price,
      dom_first_text(dom, '#acrCustomerReviewText') as ratings,
      str_first_float(dom_first_text(dom, '#reviewsMedley .AverageCustomerReviews span:contains(out of)'), 0.0) as score
  from load_and_select('https://www.amazon.com/dp/B09V3KXJPB -i 1s -njr 3', 'body');

示例代碼: Exotic Amazon’s X-SQLs.

如需了解更多，可以看項(xiàng)目主頁，國內(nèi)鏡像或者專欄文章或者在線教程。文章來源地址http://www.zghlxwxcb.cn/news/detail-814369.html

到了這里，關(guān)于下一代網(wǎng)絡(luò)爬蟲：AI agents的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

【譯】如何建立一家下一代“人工智能”公司
原作：丹尼爾·塞克斯頓引言：通過不易覺察的路徑 /Gemini翻譯/ dall e，尼古拉·特斯拉啟發(fā)的時(shí)光機(jī) ? 如果你回到1915年的美國，當(dāng)時(shí)三分之一的工人是農(nóng)民，你會(huì)告訴一個(gè)農(nóng)民要做些什么呢？農(nóng)業(yè)正在蓬勃發(fā)展。鐵路提供了前所未有的市場準(zhǔn)入機(jī)會(huì)。小麥和玉米的價(jià)格飆升
2024年04月08日
瀏覽(100)
“Copilot”：微軟下一代人工智能，重新定義你的工作
人類是天生具有夢想、創(chuàng)造和創(chuàng)新的本能。我們渴望做能夠?qū)崿F(xiàn)我們目標(biāo)的工作——寫出偉大的小說、做出驚人的發(fā)現(xiàn)、建立強(qiáng)大的社區(qū)，照顧病人等等。與工作本質(zhì)的聯(lián)系是我們內(nèi)心深處的渴望。但是今天，我們花費(fèi)太多時(shí)間在枯燥乏味的任務(wù)上，這些任務(wù)耗費(fèi)了我們的時(shí)
2024年02月13日
瀏覽(97)
搭載下一代人工智能技術(shù)，微軟推出Power Automate流程挖掘產(chǎn)品
在近日的Microsoft Inspire大會(huì)中，微軟揭曉了他們即將推出的Power Automate流程挖掘產(chǎn)品，并計(jì)劃在8月1日正式對(duì)外開放。試用地址：https://powerautomate.microsoft.com/zh-cn/#home-signup 這款產(chǎn)品搭載了下一代人工智能技術(shù)，有助于組織輕松洞察業(yè)務(wù)運(yùn)行的全景，最大程度地理解流程，利用
2024年02月17日
瀏覽(93)
AIGC技術(shù)研究與應(yīng)用 ---- 下一代人工智能：新范式！新生產(chǎn)力！（1-簡介）
2024年02月09日
瀏覽(94)
AIGC技術(shù)研究與應(yīng)用 ---- 下一代人工智能：新范式！新生產(chǎn)力?。? - AIGC 未來展望）
據(jù)預(yù)測，未來五年10%-30%的圖片內(nèi)容由AI參與生成，考慮到下一代互聯(lián)網(wǎng)對(duì)內(nèi)容需求的迅速提升，2030年AIGC市場規(guī)模將達(dá)到1100億美元任務(wù)分解替代概率模型 (Task Decomposition Replacement Probability Model) ：AI替代某個(gè)工作主要取決于以下要素——任務(wù)重復(fù)性、標(biāo)準(zhǔn)化程度、創(chuàng)新和判斷
2024年02月12日
瀏覽(93)
下一代Edge AI的應(yīng)用初探
如您所見，AI已不再只是科幻電影的經(jīng)典主題，它正在以驚人的速度被應(yīng)用到我們?nèi)粘Ｉ钪械姆椒矫婷?，并從個(gè)人關(guān)系到工作項(xiàng)目上，逐漸改變著我們的想法或行為。其中，一個(gè)最為典型的領(lǐng)域當(dāng)屬NextGEN Edge AI（下一代邊緣人工智能）應(yīng)用。它能夠通過諸如：排名、分類、
2024年02月21日
瀏覽(89)
AIGC技術(shù)研究與應(yīng)用 ---- 下一代人工智能：新范式！新生產(chǎn)力?。? - ChatGPT 成功之路）
2023年07月24日
瀏覽(96)
下一代計(jì)算：嵌入AI的云/霧/邊緣/量子計(jì)算
計(jì)算系統(tǒng)在過去幾十年中推動(dòng)了計(jì)算機(jī)科學(xué)的發(fā)展，現(xiàn)在已成為企業(yè)世界的核心，提供基于云計(jì)算、霧計(jì)算、邊緣計(jì)算、無服務(wù)器計(jì)算和量子計(jì)算的服務(wù)。現(xiàn)代計(jì)算系統(tǒng)解決了現(xiàn)實(shí)世界中許多需要低延遲和低響應(yīng)時(shí)間的問題。這有助于全球各地的青年才俊創(chuàng)辦初創(chuàng)企業(yè)，利用
2024年02月12日
瀏覽(20)
詳解FPGA —— 下一代AI算力芯片（上）
本文將詳細(xì)介紹FPGA芯片。微信搜索關(guān)注《Java學(xué)研大本營》 CPU為一般計(jì)算提供了一套通用的計(jì)算指令，要修改或優(yōu)化應(yīng)用程序，我們更改代碼，但硬件是固定的。然而，這種通用化是以硬件的復(fù)雜性為代價(jià)的。如果沒有復(fù)雜的硬件優(yōu)化，如投機(jī)執(zhí)行，它就會(huì)損害性能。但是，
2024年02月04日
瀏覽(19)
據(jù)報(bào)道，微軟的下一代 Surface 筆記本電腦將是其首款真正的“人工智能 PC”
明年，微軟計(jì)劃推出?Surface Laptop 6和 Surface Pro 10，這兩款設(shè)備將提供 Arm 和 Intel 兩種處理器選項(xiàng)。不愿意透露姓名的不透露姓名人士透露，這些新設(shè)備將引入先進(jìn)的人工智能功能，包括配備下一代神經(jīng)處理單元 (NPU)。據(jù)悉，基于 Arm 架構(gòu)的設(shè)備將采用高通最新的 ?Snapdragon
2024年02月03日
瀏覽(88)

<input id="hk3ow"><p id="hk3ow"><tfoot id="hk3ow"></tfoot></p></input>

<noscript id="hk3ow"><dfn id="hk3ow"><input id="hk3ow"></input></dfn></noscript>