国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

聊聊日志聚類算法及其應(yīng)用場(chǎng)景

這篇具有很好參考價(jià)值的文章主要介紹了聊聊日志聚類算法及其應(yīng)用場(chǎng)景。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。


隨著AI模型的普及應(yīng)用與高速發(fā)展,主要的云廠商與AI大廠提供了對(duì)應(yīng)的服務(wù)支持,使得業(yè)務(wù)的應(yīng)用可以輕松對(duì)接AI算法,使其在實(shí)際項(xiàng)目中落地。
我個(gè)人也是極度推崇在項(xiàng)目中應(yīng)用AI算法更輕松更數(shù)智化的兌現(xiàn)功能。
雖然AI門檻很高,但隨著時(shí)間的推移與AI模型的發(fā)展,我相信對(duì)于普通的程序猿來(lái)說(shuō),還是可以入手且實(shí)際開發(fā)應(yīng)用AI算法模型。


閱讀《基于 Flink ML 搭建的智能運(yùn)維算法服務(wù)及應(yīng)用》一文后,對(duì)其中日志聚類算法有了些思考。

概述

日志聚類,簡(jiǎn)而言之是對(duì)海量日志的分析;其分析處理鏈路可以分為如下流程:日志采集 -> 預(yù)處理 -> 分詞和特征表示 -> 聚類和標(biāo)注;也可以概述為數(shù)據(jù)收集及預(yù)處理、文本向量化、文本相似度計(jì)算、文本分類四部分。

算法模型分析

針對(duì)如上的鏈路流程做一個(gè)拆分?jǐn)⑹觥?/p>

日志采集

常用的日志采集方案是寫完數(shù)據(jù)庫(kù)多寫一遍ElasticSearch;目前我個(gè)人推薦的方案是基于Flink CDC組件來(lái)采集。

預(yù)處理

一般來(lái)說(shuō),預(yù)處理階段是在業(yè)務(wù)中常用的一個(gè)階段,根據(jù)業(yè)務(wù)的不同做不同的處理,比如精簡(jiǎn)文本刪除不必要的語(yǔ)氣詞、標(biāo)點(diǎn)符號(hào)、替換占位符等等。日志一般都是非結(jié)構(gòu)化的文本類型數(shù)據(jù),由于開發(fā)人員的開發(fā)習(xí)慣與團(tuán)隊(duì)開發(fā)規(guī)范的約束,每個(gè)人記錄的日志模板可能是不一樣的,因此,需要對(duì)日志文本做一次常見的預(yù)處理—————?jiǎng)h除不必要的語(yǔ)氣詞等。

分詞和特征表述

分詞

其實(shí)對(duì)于分詞,我一開始想到的就是ElasticSearch中很重要的一個(gè)組件模塊——————分析器。分析器由字符過(guò)濾器、分詞器、詞語(yǔ)(token)過(guò)濾器組成。在我看來(lái),預(yù)處理流程與分詞流程其實(shí)可以歸納為分析器的處理。

對(duì)于分詞,當(dāng)前主要有兩種算法,一種是基于已有的詞典庫(kù),一種是基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)。

基于詞典的分詞算法分為以下幾種:正向最大匹配法、逆向最大匹配法和雙向匹配分詞法等?;谠~典的分詞算法是應(yīng)用最廣泛、分詞速度最快的?;诮y(tǒng)計(jì)的機(jī)器學(xué)習(xí)算法法是HMM、CRF、SVM、深度學(xué)習(xí)等算法,比如stanford、Hanlp分詞工具是基于CRF算法。

常見的分詞器都是使用機(jī)器學(xué)習(xí)算法和詞典相結(jié)合,一方面能夠提高分詞準(zhǔn)確率,另一方面能夠改善領(lǐng)域適應(yīng)性。

特征表述

將分詞后的詞作為特征列表,基于此列表,對(duì)日志做向量化的構(gòu)建。通過(guò)TF-IDF算法對(duì)關(guān)鍵詞做統(tǒng)計(jì)分析,得到詞向量后,再做一次相似度比較,最終就可以得到向量。

其實(shí)我理解這里就是在做文本相似度匹配的處理。一般都是處理文本向量化。

聚類

最后通過(guò)聚類算法:層次聚類算法、K-means算法等來(lái)得到我們的聚類結(jié)果,也就是各個(gè)日志模板所對(duì)應(yīng)的日志類別。

總結(jié)

在上份工作中,其實(shí)就遇到了類似的問題,當(dāng)時(shí)我們有大量的日志數(shù)據(jù),且需要基于這些日志數(shù)據(jù)做分析推送對(duì)應(yīng)的解決策略以及解答給客戶或是一線。但由于當(dāng)時(shí)所有的開發(fā)人員都做的是業(yè)務(wù)開發(fā),對(duì)機(jī)器學(xué)習(xí)及應(yīng)用壓根就不清楚(嚴(yán)格來(lái)說(shuō),都沒有考慮過(guò)從這方面入手),所以導(dǎo)致當(dāng)時(shí)的運(yùn)維量和客戶的反饋不太好;當(dāng)時(shí)我花了不少時(shí)間分析過(guò)如何解決,受限于當(dāng)時(shí)的認(rèn)知與能力,畫過(guò)一個(gè)簡(jiǎn)單的流程圖,但很難落地,而且沒有足夠的理論與算法的支持,相比較現(xiàn)在的解決方案,那真是沒眼看。目前來(lái)看,日志聚類的應(yīng)用完全是可以落地到當(dāng)時(shí)的業(yè)務(wù)上的。

參考

基于 Flink ML 搭建的智能運(yùn)維算法服務(wù)及應(yīng)用

對(duì)智能化運(yùn)維中日志聚類分析的一些思考

SREWorks v1.5 版本發(fā)布 | 基于實(shí)時(shí)作業(yè)平臺(tái)的日志聚類開源

揭秘阿里云Flink智能診斷利器——Fllink Job Advisor文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-595244.html

到了這里,關(guān)于聊聊日志聚類算法及其應(yīng)用場(chǎng)景的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 講解機(jī)器學(xué)習(xí)中的 K-均值聚類算法及其優(yōu)缺點(diǎn)

    K-均值聚類算法是一種常見且簡(jiǎn)單的無(wú)監(jiān)督學(xué)習(xí)算法,用于將數(shù)據(jù)集分為K個(gè)不同的類別。其主要思想是將數(shù)據(jù)集中的每個(gè)樣本點(diǎn)分配給離它最近的質(zhì)心,然后更新質(zhì)心的位置,重復(fù)此過(guò)程直到質(zhì)心不再移動(dòng)或達(dá)到預(yù)定的迭代次數(shù)。 K-均值聚類算法的步驟如下: 隨機(jī)初始化K個(gè)

    2024年01月17日
    瀏覽(21)
  • 基于改進(jìn)ISODATA算法的負(fù)荷場(chǎng)景曲線聚類MATLAB程序

    基于改進(jìn)ISODATA算法的負(fù)荷場(chǎng)景曲線聚類MATLAB程序

    ??正在為您運(yùn)送作品詳情 https://mbd.pub/o/bread/ZJqclJ9v 參考文獻(xiàn): 基于機(jī)器學(xué)習(xí)的短期電力負(fù)荷預(yù)測(cè)和負(fù)荷曲線聚類研究_張辰睿(碩士論文) 參考其第三章 主要內(nèi)容: 主要包含四種聚類算法,K-means聚類、ISODATA聚類、L-ISODATA聚類及K-L-ISODATA聚類,并且包含了對(duì)聚類場(chǎng)景以及聚

    2024年02月13日
    瀏覽(21)
  • K-Means聚類算法及其python實(shí)現(xiàn)(已附上代碼至本博客)

    K-Means聚類算法及其python實(shí)現(xiàn)(已附上代碼至本博客)

    覺得有用的,一腚要先點(diǎn)贊后收藏!!!氣死人了,40多個(gè)收藏0點(diǎn)贊!! 對(duì)于 n代表了x有n維,x上標(biāo)j表示第j維的特征,下標(biāo)i表示該向量是第i個(gè)樣本 簇中心坐標(biāo)為:(當(dāng)然,這也是重新計(jì)算簇中心坐標(biāo)的方法?。。?向量 u i = ( u i ( 1 ) , u i ( 2 ) , ? ? ? , u i ( j ) , ? ? ? , u i ( n )

    2024年02月08日
    瀏覽(27)
  • K-均值聚類算法及其優(yōu)缺點(diǎn)(InsCode AI 創(chuàng)作助手測(cè)試生成的文章)

    K-均值聚類算法是一種常用的無(wú)監(jiān)督學(xué)習(xí)算法,用于將數(shù)據(jù)集劃分為 K 個(gè)不同的類別。該算法的基本思想是根據(jù)數(shù)據(jù)點(diǎn)之間的距離,將它們劃分為離其最近的 K 個(gè)簇之一。 算法的步驟如下: 初始化 K 個(gè)聚類中心,可以隨機(jī)選擇數(shù)據(jù)集中的 K 個(gè)點(diǎn)。 將每個(gè)數(shù)據(jù)點(diǎn)分配給離它最

    2024年02月01日
    瀏覽(25)
  • AI Transformer:最新進(jìn)展及其應(yīng)用場(chǎng)景解析

    作者:禪與計(jì)算機(jī)程序設(shè)計(jì)藝術(shù) 隨著人工智能(AI)技術(shù)的飛速發(fā)展,深度學(xué)習(xí)(DL)和Transformer模型已經(jīng)成為最具代表性的兩個(gè)研究方向。近年來(lái),兩者在自然語(yǔ)言處理、圖像識(shí)別、文本生成等領(lǐng)域均取得重大突破,在各行各業(yè)產(chǎn)生了廣泛影響。本文將從最新研究成果和相關(guān)

    2024年02月07日
    瀏覽(43)
  • 經(jīng)典動(dòng)態(tài)規(guī)劃問題詳解以及其主要應(yīng)用場(chǎng)景

    經(jīng)典動(dòng)態(tài)規(guī)劃問題詳解以及其主要應(yīng)用場(chǎng)景

    ** 動(dòng)態(tài)規(guī)劃(英語(yǔ):Dynamic programming,簡(jiǎn)稱 DP),是一種在數(shù)學(xué)、管理科學(xué)、計(jì)算機(jī)科學(xué)、經(jīng)濟(jì)學(xué)和生物信息學(xué)中使用的,通過(guò)把原問題分解為相對(duì)簡(jiǎn)單的子問題的方式求解復(fù)雜問題的方法。動(dòng)態(tài)規(guī)劃常常適用于有重疊子問題和最優(yōu)子結(jié)構(gòu)性質(zhì)的問題。。 動(dòng)態(tài)規(guī)劃最核心的思

    2024年02月10日
    瀏覽(16)
  • 深入探究Vue.js生命周期及其應(yīng)用場(chǎng)景

    深入探究Vue.js生命周期及其應(yīng)用場(chǎng)景

    當(dāng)談到Vue.js的生命周期時(shí),我們指的是組件在創(chuàng)建、更新和銷毀過(guò)程中發(fā)生的一系列事件。了解Vue的生命周期對(duì)于開發(fā)人員來(lái)說(shuō)是至關(guān)重要的,因?yàn)樗鼈兲峁┝艘粋€(gè)機(jī)會(huì)來(lái)執(zhí)行特定任務(wù),并在不同的階段處理組件。 Vue的生命周期可以分為八個(gè)不同的階段:創(chuàng)建前、創(chuàng)建后、掛

    2024年02月06日
    瀏覽(30)
  • 深入理解Web注解:解析常用注解及其應(yīng)用場(chǎng)景

    Web(World Wide Web)是由英國(guó)物理學(xué)家蒂姆·伯納斯-李于1989年發(fā)明的一個(gè)基于互聯(lián)網(wǎng)的信息系統(tǒng),也是互聯(lián)網(wǎng)最為知名和常用的應(yīng)用之一。它通過(guò)一種名為超文本傳輸協(xié)議(HTTP)的協(xié)議來(lái)傳輸數(shù)據(jù),并且使用統(tǒng)一資源定位符(URL)來(lái)標(biāo)識(shí)網(wǎng)絡(luò)上的資源。 Web的基本組成部分包括

    2024年02月05日
    瀏覽(43)
  • 深入理解數(shù)據(jù)結(jié)構(gòu):隊(duì)列的實(shí)現(xiàn)及其應(yīng)用場(chǎng)景

    深入理解數(shù)據(jù)結(jié)構(gòu):隊(duì)列的實(shí)現(xiàn)及其應(yīng)用場(chǎng)景

    隊(duì)列(Queue)是一種具有先進(jìn)先出(FIFO)特性的數(shù)據(jù)結(jié)構(gòu)。在隊(duì)列中,數(shù)據(jù)的插入和刪除操作分別在隊(duì)列的兩端進(jìn)行。插入操作在隊(duì)列的尾部進(jìn)行,而刪除操作則在隊(duì)列的頭部進(jìn)行。這種特性使得隊(duì)列在很多實(shí)際應(yīng)用中非常有用,比如任務(wù)調(diào)度、緩沖區(qū)管理等。 線性表是一種

    2024年04月28日
    瀏覽(30)
  • Elasticsearch核心應(yīng)用場(chǎng)景-日志優(yōu)化實(shí)踐

    Elasticsearch核心應(yīng)用場(chǎng)景-日志優(yōu)化實(shí)踐

    日志領(lǐng)域是Elasticsearch(ES)最重要也是規(guī)模最大的應(yīng)用場(chǎng)景之一。這得益于 ES 有高性能倒排索引、靈活的 schema、易用的分布式架構(gòu),支持高吞吐寫入、高性能查詢,同時(shí)有強(qiáng)大的數(shù)據(jù)治理生態(tài)、端到端的完整解決方案。但原生 ES 在高吞吐寫入、低成本存儲(chǔ)、高性能查詢等方

    2024年02月10日
    瀏覽(22)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包