国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

下一代網(wǎng)絡(luò)爬蟲:AI agents

這篇具有很好參考價(jià)值的文章主要介紹了下一代網(wǎng)絡(luò)爬蟲:AI agents。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

簡介

下一代網(wǎng)絡(luò)爬蟲是爬蟲級(jí) AI agents。

由于現(xiàn)代網(wǎng)頁的復(fù)雜性,現(xiàn)代爬蟲都傾向于使用高性能分布式 RPA,完全和真人一樣訪問網(wǎng)頁,采集數(shù)據(jù)。由于 AI 的成熟,RPA 工具也在升級(jí)為 AI agents。因此,網(wǎng)頁爬蟲的發(fā)展趨勢是爬蟲級(jí)智能體(AI agents),或者我喜歡稱為數(shù)字超人。

高性能分布式 RPA

互聯(lián)網(wǎng)數(shù)據(jù)收集現(xiàn)在都使用高性能分布式 RPA。搭載 AI 的 RPA 也是 AI agents。爬蟲級(jí) RPA 可以完全和你本人一樣操作瀏覽器,為你創(chuàng)建一個(gè)智能體軍團(tuán),在網(wǎng)上自由沖浪,完整精確采集數(shù)據(jù)和知識(shí)。

商用級(jí)數(shù)據(jù)收集非常困難,步步維艱,但凡對(duì)數(shù)據(jù)質(zhì)量、調(diào)度質(zhì)量、采集性能、數(shù)據(jù)規(guī)模、綜合成本有一些要求,都面臨著成千上萬個(gè)困難。

幸運(yùn)的是,我們現(xiàn)在有了 AI + RPA 的成熟方案完整解決這些難題。

PulsarRPA?的性能非常高,成本非常低,一臺(tái)普通機(jī)器每天訪問十萬幾十萬網(wǎng)頁,采集數(shù)千萬上億數(shù)據(jù)點(diǎn),毫無壓力。

高性能分布式 RPA 在網(wǎng)頁上執(zhí)行了交互動(dòng)作,保證了所有字段均完整呈現(xiàn)在頁面上,每個(gè)頁面會(huì)有 100~200 個(gè)高價(jià)值字段被提取出來。一臺(tái)機(jī)器一天可以采集1700萬到3400萬個(gè)字段。

下一代網(wǎng)絡(luò)爬蟲:AI agents,人工智能,數(shù)據(jù)挖掘,rpa,爬蟲

下面的視頻,介紹了如何用 PulsarRPA?完整精確采集最復(fù)雜的網(wǎng)站數(shù)據(jù),具備最嚴(yán)格的質(zhì)量保證體系、滿足最嚴(yán)苛的系統(tǒng)性能和總體成本要求。

PulsarRPA - 適用于網(wǎng)絡(luò)爬蟲和 AI agents 的高性能分布式 RPAhttps://blog.csdn.net/weixin_48738961/article/details/135700524?PulsarRPA 是目前應(yīng)用于大規(guī)模數(shù)據(jù)采集,唯一成熟的開源 RPA。

商用級(jí)項(xiàng)目示例

作為 PulsarRPA?的一個(gè)真實(shí)商用項(xiàng)目示例,Exotic Amazon (國內(nèi)鏡像)是采集 amazon 全球網(wǎng)站的完整解決方案,開箱即用,滿足最高標(biāo)準(zhǔn)的數(shù)據(jù)質(zhì)量要求、最高標(biāo)準(zhǔn)的采集性能要求、最高標(biāo)準(zhǔn)的綜合成本要求,包含亞馬遜大多數(shù)數(shù)據(jù)類型,它將永久免費(fèi)提供并開放源代碼。

作為一款爬蟲級(jí) RPA,PulsarRPA?已經(jīng)累計(jì)為各種客戶采集近百億網(wǎng)頁。其中包括了最復(fù)雜的數(shù)據(jù)采集需求,譬如 amazon 全球 20 大站點(diǎn)的完整數(shù)據(jù)點(diǎn),以及 google 全球站點(diǎn)的完整數(shù)據(jù)點(diǎn)。

智能體軍團(tuán)

在如此嚴(yán)苛的需求錘煉之后,PulsarRPA?已經(jīng)非常成熟。目前我們的產(chǎn)品重心是真正意義上的 AI 爬蟲。

AI 爬蟲指的是一組智能體,也就是 AI agents,它能夠像真人一樣網(wǎng)上沖浪,閱讀理解在線網(wǎng)頁,并且可以完全自動(dòng)地分析網(wǎng)頁,輸出結(jié)構(gòu)化數(shù)據(jù)或者知識(shí)圖譜。

Platon.ai 的高性能分布式瀏覽器,可以幫助大語言模型無障礙訪問互聯(lián)網(wǎng),獲得實(shí)時(shí)、干凈的網(wǎng)頁數(shù)據(jù)。

Platon.ai 基于機(jī)器學(xué)習(xí)技術(shù)采集的數(shù)據(jù),可以支持各種各樣的數(shù)據(jù)業(yè)務(wù),譬如電商數(shù)據(jù)分析,大語言模型預(yù)訓(xùn)練、微調(diào)、提示詞工程、檢索增強(qiáng)生成(RAG)等。

無監(jiān)督學(xué)習(xí)數(shù)據(jù)提取

互聯(lián)網(wǎng)數(shù)據(jù)充滿噪音,platon.ai 的技術(shù)幫助我們自動(dòng)將互聯(lián)網(wǎng)網(wǎng)頁轉(zhuǎn)變成干凈的結(jié)構(gòu)化數(shù)據(jù)。

在傳統(tǒng)上,我們需要使用 PulsarRPA,或者 selenium 這樣的瀏覽器自動(dòng)化工具,花費(fèi)大量時(shí)間,編寫X-SQL、CSSPath、XPath、正則表達(dá)式等,來提取網(wǎng)頁數(shù)據(jù),將網(wǎng)頁轉(zhuǎn)變成可以直接分析的結(jié)構(gòu)化數(shù)據(jù)。

使用 platon.ai 的 AI 爬蟲 PulsarRPAPro,可以像真人一樣無障礙網(wǎng)上沖浪,自動(dòng)提取網(wǎng)頁中的所有字段,輸出結(jié)構(gòu)化數(shù)據(jù)。

PulsarRPAPro-AI高速采集并自動(dòng)提取網(wǎng)頁數(shù)據(jù)-CSDN博客https://blog.csdn.net/weixin_48738961/article/details/135701063執(zhí)行 PulsarRPAPro?后,系統(tǒng)將打開入口頁面,和網(wǎng)頁進(jìn)行交互,等待延遲加載的網(wǎng)頁內(nèi)容也完整呈現(xiàn)。

在所有網(wǎng)頁內(nèi)容完整呈現(xiàn)后,PulsarRPAPro?智能地找到了所有商品鏈接,并逐一訪問這些鏈接,瀏覽商品頁面。

在網(wǎng)頁上,凡人眼可見的數(shù)據(jù),幾乎都能夠被完整、精確提取出來,譬如,標(biāo)題、價(jià)格、折扣、優(yōu)惠、配送等等關(guān)鍵字段。

和真人不同的是,PulsarRPAPro?訪問速度非常快,訪問的網(wǎng)頁數(shù)量沒有限制,單機(jī)每天訪問十萬、幾十萬網(wǎng)頁,采集數(shù)千萬、上億數(shù)據(jù)點(diǎn),毫無壓力。

訪問所有網(wǎng)頁后,PulsarRPAPro?直接將網(wǎng)頁上所有的數(shù)據(jù)轉(zhuǎn)變?yōu)楸砀?,并且保存為后續(xù)分析所需的格式。

監(jiān)督學(xué)習(xí)數(shù)據(jù)提取

PulsarRPAPro?使用多種機(jī)器學(xué)習(xí)技術(shù),來將網(wǎng)頁內(nèi)容提取工作人效提升 1000 倍以上,而人員技能要求也幾乎降為零。

下一代網(wǎng)絡(luò)爬蟲:AI agents,人工智能,數(shù)據(jù)挖掘,rpa,爬蟲

如果對(duì)數(shù)據(jù)質(zhì)量有進(jìn)一步要求,PulsarRPA 也開發(fā)了監(jiān)督學(xué)習(xí)技術(shù)來提取網(wǎng)頁,一次訓(xùn)練,永久有效。

PulsarRPAPro-基于監(jiān)督學(xué)習(xí)算法高精度提取網(wǎng)頁數(shù)據(jù)-CSDN博客文章瀏覽閱讀125次,點(diǎn)贊2次,收藏3次。使用無監(jiān)督學(xué)習(xí)+監(jiān)督學(xué)習(xí)進(jìn)行網(wǎng)頁數(shù)據(jù)提取,我們將網(wǎng)頁數(shù)據(jù)提取的人效提升了1000倍以上,提升了數(shù)據(jù)提取準(zhǔn)確率,降低了人員技能要求,同時(shí)也不再需要頻繁維護(hù)數(shù)據(jù)提取規(guī)則。https://blog.csdn.net/weixin_48738961/article/details/135702207由于我們能夠無監(jiān)督學(xué)習(xí)將網(wǎng)頁轉(zhuǎn)變成表格,我們只需要在這個(gè)表格上處理,簡單剔除錯(cuò)誤數(shù)據(jù),并給每一列字段一個(gè)名字,這就形成了可以用于訓(xùn)練監(jiān)督學(xué)習(xí)模型的大數(shù)據(jù)集。這個(gè)過程不需要任何專業(yè)知識(shí),初中知識(shí)儲(chǔ)備就可以勝任。

使用監(jiān)督學(xué)習(xí)技術(shù),絕大多數(shù)字段,準(zhǔn)確率和召回率均超過99%。

未來演化

在下一步,PulsarRPA 將引入大語言模型,提供自然語言交互界面,優(yōu)化從數(shù)據(jù)采集、UI 操作、自主決策、數(shù)據(jù)標(biāo)注、數(shù)據(jù)導(dǎo)出等各個(gè)環(huán)節(jié)的用戶體驗(yàn),并提供一定自主決策能力。

代碼示例

大多數(shù)抓取嘗試可以從幾乎一行代碼開始

fun main() = PulsarContexts.createSession().scrapeOutPages( "https://www.amazon.com/", "-outLink a[href~=/dp/]", listOf("#title", "#acrCustomerReviewText"))

上面的代碼從一組產(chǎn)品頁面中抓取由 css 選擇器 #title 和 #acrCustomerReviewText 指定的字段。 示例代碼可以在這里找到:kotlin,java,國內(nèi)鏡像:kotlin,java。

大多數(shù)生產(chǎn)環(huán)境數(shù)據(jù)采集項(xiàng)目可以從以下代碼片段開始

fun main() {
    val context = PulsarContexts.create()

    val parseHandler = { _: WebPage, document: Document ->
        // use the document
        // ...
        // and then extract further hyperlinks
        context.submitAll(document.selectHyperlinks("a[href~=/dp/]"))
    }
    val urls = LinkExtractors.fromResource("seeds10.txt")
        .map { ParsableHyperlink("$it -refresh", parseHandler) }
    context.submitAll(urls).await()
}

示例代碼:kotlin,java,國內(nèi)鏡像:kotlin,java。

最復(fù)雜的數(shù)據(jù)采集項(xiàng)目可以使用 RPA 模式

最復(fù)雜的數(shù)據(jù)采集項(xiàng)目往往需要和網(wǎng)頁進(jìn)行復(fù)雜交互,為此我們提供了簡潔強(qiáng)大的 API。以下是一個(gè)典型的 RPA 代碼片段,它是從頂級(jí)電子商務(wù)網(wǎng)站收集數(shù)據(jù)所必需的:

val options = session.options(args)
val event = options.event.browseEvent
event.onBrowserLaunched.addLast { page, driver ->
    // warp up the browser to avoid being blocked by the website,
    // or choose the global settings, such as your location.
    warnUpBrowser(page, driver)
}
event.onWillFetch.addLast { page, driver ->
    // have to visit a referrer page before we can visit the desired page
    waitForReferrer(page, driver)
    // websites may prevent us from opening too many pages at a time, so we should open links one by one.
    waitForPreviousPage(page, driver)
}
event.onWillCheckDocumentState.addLast { page, driver ->
    // wait for a special fields to appear on the page
    driver.waitForSelector("body h1[itemprop=name]")
    // close the mask layer, it might be promotions, ads, or something else.
    driver.click(".mask-layer-close-button")
}
// visit the URL and trigger events
session.load(url, options)

示例代碼: kotlin,國內(nèi)鏡像。

Web 數(shù)據(jù)抽取難題可以使用機(jī)器學(xué)習(xí)來解決

使用無監(jiān)督學(xué)習(xí)+監(jiān)督學(xué)習(xí)進(jìn)行網(wǎng)頁數(shù)據(jù)提取,我們將網(wǎng)頁數(shù)據(jù)提取的人效提升了1000倍以上,提升了數(shù)據(jù)提取準(zhǔn)確率,降低了人員技能要求,同時(shí)也不再需要頻繁維護(hù)數(shù)據(jù)提取規(guī)則。

Web 數(shù)據(jù)抽取難題也可以用 X-SQL 來解決

除了使用機(jī)器學(xué)習(xí)手段提取人眼可見數(shù)據(jù)外,一些人眼不可見數(shù)據(jù)、頁面源代碼中的數(shù)據(jù)、其他流經(jīng)瀏覽器的數(shù)據(jù),也可以使用 X-SQL 來提取。

現(xiàn)在,我們?cè)诖笮蛿?shù)據(jù)采集項(xiàng)目中,所有提取規(guī)則都是用 X-SQL 編寫的,數(shù)據(jù)類型轉(zhuǎn)換、數(shù)據(jù)清理等工作也由強(qiáng)大的 X-SQL 內(nèi)聯(lián)處理。編寫 X-SQL 做數(shù)據(jù)采集項(xiàng)目的體驗(yàn),就像傳統(tǒng)的 CRUD 項(xiàng)目一樣簡單高效。一個(gè)很好的例子是 x-asin.sql(國內(nèi)鏡像),它從每個(gè)產(chǎn)品頁面中提取 70 多個(gè)字段。

select
      dom_first_text(dom, '#productTitle') as title,
      dom_first_text(dom, '#bylineInfo') as brand,
      dom_first_text(dom, '#price tr td:matches(^Price) ~ td, #corePrice_desktop tr td:matches(^Price) ~ td') as price,
      dom_first_text(dom, '#acrCustomerReviewText') as ratings,
      str_first_float(dom_first_text(dom, '#reviewsMedley .AverageCustomerReviews span:contains(out of)'), 0.0) as score
  from load_and_select('https://www.amazon.com/dp/B09V3KXJPB -i 1s -njr 3', 'body');

示例代碼: Exotic Amazon’s X-SQLs.

如需了解更多,可以看項(xiàng)目主頁,國內(nèi)鏡像 或者 專欄文章 或者在線教程。文章來源地址http://www.zghlxwxcb.cn/news/detail-814369.html

到了這里,關(guān)于下一代網(wǎng)絡(luò)爬蟲:AI agents的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 【譯】如何建立一家下一代“人工智能”公司

    【譯】如何建立一家下一代“人工智能”公司

    原作:丹尼爾·塞克斯頓 引言:通過不易覺察的路徑 /Gemini翻譯/ dall e,尼古拉·特斯拉啟發(fā)的時(shí)光機(jī) ? 如果你回到1915年的美國,當(dāng)時(shí)三分之一的工人是農(nóng)民,你會(huì)告訴一個(gè)農(nóng)民要做些什么呢? 農(nóng)業(yè)正在蓬勃發(fā)展。鐵路提供了前所未有的市場準(zhǔn)入機(jī)會(huì)。小麥和玉米的價(jià)格飆升

    2024年04月08日
    瀏覽(100)
  • “Copilot”:微軟下一代人工智能,重新定義你的工作

    人類是天生具有夢想、創(chuàng)造和創(chuàng)新的本能。我們渴望做能夠?qū)崿F(xiàn)我們目標(biāo)的工作——寫出偉大的小說、做出驚人的發(fā)現(xiàn)、建立強(qiáng)大的社區(qū),照顧病人等等。與工作本質(zhì)的聯(lián)系是我們內(nèi)心深處的渴望。但是今天,我們花費(fèi)太多時(shí)間在枯燥乏味的任務(wù)上,這些任務(wù)耗費(fèi)了我們的時(shí)

    2024年02月13日
    瀏覽(97)
  • 搭載下一代人工智能技術(shù),微軟推出Power Automate流程挖掘產(chǎn)品

    搭載下一代人工智能技術(shù),微軟推出Power Automate流程挖掘產(chǎn)品

    在近日的Microsoft Inspire大會(huì)中,微軟揭曉了他們即將推出的Power Automate流程挖掘產(chǎn)品,并計(jì)劃在8月1日正式對(duì)外開放。 試用地址:https://powerautomate.microsoft.com/zh-cn/#home-signup 這款產(chǎn)品搭載了下一代人工智能技術(shù),有助于組織輕松洞察業(yè)務(wù)運(yùn)行的全景,最大程度地理解流程,利用

    2024年02月17日
    瀏覽(93)
  • AIGC技術(shù)研究與應(yīng)用 ---- 下一代人工智能:新范式!新生產(chǎn)力?。? - AIGC 未來展望)

    據(jù)預(yù)測,未來五年10%-30%的圖片內(nèi)容由AI參與生成,考慮到下一代互聯(lián)網(wǎng)對(duì)內(nèi)容需求的迅速提升,2030年AIGC市場規(guī)模將達(dá)到1100億美元 任務(wù)分解替代概率模型 (Task Decomposition Replacement Probability Model) :AI替代某個(gè)工作主要取 決于以下要素——任務(wù)重復(fù)性、 標(biāo)準(zhǔn)化程度、 創(chuàng)新和判斷

    2024年02月12日
    瀏覽(93)
  • 下一代Edge AI的應(yīng)用初探

    如您所見,AI已不再只是科幻電影的經(jīng)典主題,它正在以驚人的速度被應(yīng)用到我們?nèi)粘I钪械姆椒矫婷?,并從個(gè)人關(guān)系到工作項(xiàng)目上,逐漸改變著我們的想法或行為。 其中,一個(gè)最為典型的領(lǐng)域當(dāng)屬NextGEN Edge AI(下一代邊緣人工智能)應(yīng)用。它能夠通過諸如:排名、分類、

    2024年02月21日
    瀏覽(89)
  • 下一代計(jì)算:嵌入AI的云/霧/邊緣/量子計(jì)算

    下一代計(jì)算:嵌入AI的云/霧/邊緣/量子計(jì)算

    計(jì)算系統(tǒng)在過去幾十年中推動(dòng)了計(jì)算機(jī)科學(xué)的發(fā)展,現(xiàn)在已成為企業(yè)世界的核心,提供基于云計(jì)算、霧計(jì)算、邊緣計(jì)算、無服務(wù)器計(jì)算和量子計(jì)算的服務(wù)。 現(xiàn)代計(jì)算系統(tǒng)解決了現(xiàn)實(shí)世界中許多需要低延遲和低響應(yīng)時(shí)間的問題。這有助于全球各地的青年才俊創(chuàng)辦初創(chuàng)企業(yè),利用

    2024年02月12日
    瀏覽(20)
  • 詳解FPGA —— 下一代AI算力芯片(上)

    詳解FPGA —— 下一代AI算力芯片(上)

    本文將詳細(xì)介紹FPGA芯片。 微信搜索關(guān)注《Java學(xué)研大本營》 CPU為一般計(jì)算提供了一套通用的計(jì)算指令,要修改或優(yōu)化應(yīng)用程序,我們更改代碼,但硬件是固定的。然而,這種通用化是以硬件的復(fù)雜性為代價(jià)的。如果沒有復(fù)雜的硬件優(yōu)化,如投機(jī)執(zhí)行,它就會(huì)損害性能。但是,

    2024年02月04日
    瀏覽(19)
  • 據(jù)報(bào)道,微軟的下一代 Surface 筆記本電腦將是其首款真正的“人工智能 PC”

    據(jù)報(bào)道,微軟的下一代 Surface 筆記本電腦將是其首款真正的“人工智能 PC”

    明年,微軟計(jì)劃推出?Surface Laptop 6和 Surface Pro 10,這兩款設(shè)備將提供 Arm 和 Intel 兩種處理器選項(xiàng)。不愿意透露姓名的不透露姓名人士透露,這些新設(shè)備將引入先進(jìn)的 人工智能功能 ,包括配備下一代神經(jīng)處理單元 (NPU)。據(jù)悉,基于 Arm 架構(gòu)的設(shè)備將采用高通最新的 ?Snapdragon

    2024年02月03日
    瀏覽(88)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包