国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

基于Kylin的數(shù)據(jù)統(tǒng)計分析平臺架構設計與實現(xiàn)

這篇具有很好參考價值的文章主要介紹了基于Kylin的數(shù)據(jù)統(tǒng)計分析平臺架構設計與實現(xiàn)。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

目錄

1 前言

2 關鍵模塊

2.1 數(shù)據(jù)倉庫的搭建

2.2 ETL

2.3 Kylin數(shù)據(jù)分析系統(tǒng)

2.4 數(shù)據(jù)可視化系統(tǒng)

2.5 報表模塊

3 最終成果

4 遇到問題


?文章來源地址http://www.zghlxwxcb.cn/news/detail-728637.html

?

1 前言

????????這是在公司云平臺部門做的一個項目,總體包括云上數(shù)據(jù)統(tǒng)計平臺的架構設計和組件開發(fā),在此只做技術分享,不涉及其他用途。該項目為搭建數(shù)據(jù)平臺以便開發(fā)數(shù)據(jù)倉庫和數(shù)據(jù)應用,支持對云上設備數(shù)據(jù)做管理和分析,并使用kylin框架、cube多維分析對數(shù)據(jù)倉庫的數(shù)據(jù)做統(tǒng)計和計算,以空間換時間和預計算的思想,每日自動化統(tǒng)計分析生成計算結果立方體(cube)數(shù)據(jù),對接到報表系統(tǒng)和數(shù)據(jù)可視化系統(tǒng),供領導和業(yè)務部門查看,以及便于觀察設備數(shù)據(jù)的歷史趨勢,讓業(yè)務部門更好地做業(yè)務決策。整體的架構與數(shù)據(jù)流向如下圖所示,包括Hive做數(shù)據(jù)倉庫、Spark實現(xiàn)的ETL組件、kylin、報表模塊和數(shù)據(jù)可視化系統(tǒng)等應用。每天Hive新增數(shù)據(jù)20多個G,kylin預計算之后的數(shù)據(jù)壓縮比為5%左右。

基于Kylin的數(shù)據(jù)統(tǒng)計分析平臺架構設計與實現(xiàn),數(shù)據(jù)分析,大數(shù)據(jù),架構與設計,hive,spark,big data,kylin,大數(shù)據(jù)

2 關鍵模塊

2.1 數(shù)據(jù)倉庫的搭建

? ? ? ?選擇Hive作為數(shù)據(jù)倉庫組件,存儲主要分為三類數(shù)據(jù),包括設備、用戶和生產(chǎn)數(shù)據(jù)。表的設計采用星型模型,維度表有model表,事實表有設備首次連接時間、設備在線狀態(tài)表等。每天全量拉取線上數(shù)據(jù)庫的數(shù)據(jù),數(shù)據(jù)倉庫保留最近兩天的數(shù)據(jù)。對于個別大數(shù)據(jù)量的表采用冷熱數(shù)據(jù)分離的方式,設置冷熱數(shù)據(jù)分割時間線,每次只拉取熱數(shù)據(jù),更新被update的冷數(shù)據(jù),再將冷熱數(shù)據(jù)合并。定時任務腳本定時清理過期分區(qū)的數(shù)據(jù)。

2.2 ETL

? ? ? ?ETL是將業(yè)務系統(tǒng)的數(shù)據(jù)經(jīng)過抽取、清洗轉換之后加載到數(shù)據(jù)倉庫的過程。ETL組件使用Spark框架,從線上數(shù)據(jù)庫和備份庫抽取數(shù)據(jù)到內(nèi)存中做計算和轉換,然后加載到數(shù)據(jù)倉庫Hive。ETL一方面做數(shù)據(jù)清洗,過濾掉不合法的值,一方面做數(shù)據(jù)粒度的轉換,例如時間字段轉換成粒度小的衍生字段。由于整體線上數(shù)據(jù)庫數(shù)據(jù)量不是特別大,所以選擇全量抽取。

2.3 Kylin數(shù)據(jù)分析系統(tǒng)

? ? ? ?原先采用的是使用spark內(nèi)存計算技術對數(shù)據(jù)做各種維度組合做聚合計算,將統(tǒng)計值存于mysql中,用戶從mysql中做二次聚合查詢結果耗時過長,所以調研一種OLAP引擎旨在提高查詢效率。kylin是國內(nèi)開發(fā)的一款開源的OLAP引擎,支持對數(shù)據(jù)做多維度的預計算,利用以空間換時間的思想,根據(jù)用戶建立的用戶模型做聚合計算,生成對應的多個數(shù)據(jù)集合cubeid,提供sql的方式查詢,提高數(shù)據(jù)查詢效率。數(shù)據(jù)模型主要包括設備數(shù)據(jù)、用戶數(shù)據(jù)和設備生產(chǎn)數(shù)據(jù)。維度眾多情況下預計算后的數(shù)據(jù)量龐大,需要對cube構建做優(yōu)化,主要通過兩方面優(yōu)化。一是使用聚合組,聚合組是通過分組的方式劃分維度,同一組中的維度才能被聚合計算,減少維度組合的情況,從而減少cubeid。二是使用cubeplanner進行優(yōu)化,該方式需要開啟dashboard對歷史統(tǒng)計請求監(jiān)控統(tǒng)計,根據(jù)統(tǒng)計數(shù)據(jù)包括cubei命中頻率以及采用貪心算法,經(jīng)過多輪計算,因為有些cubeid可以根據(jù)其他cubeid計算,每一輪計算效益比最大的cubeid,最終到達膨脹率閾值后停止。

?

基于Kylin的數(shù)據(jù)統(tǒng)計分析平臺架構設計與實現(xiàn),數(shù)據(jù)分析,大數(shù)據(jù),架構與設計,hive,spark,big data,kylin,大數(shù)據(jù)

2.4 數(shù)據(jù)可視化系統(tǒng)

? ? ?數(shù)據(jù)可視化系統(tǒng)用python(Django)構建,前端使用vue,前端接受用戶選擇的查詢維度,以表格和折線圖的形式展示結果數(shù)據(jù)。

?

?

2.5 報表模塊

? ? ? 報表模塊是一個python模塊,根據(jù)定義好的數(shù)據(jù)度量,獲取kylin統(tǒng)計數(shù)據(jù),生成Excel。度量數(shù)據(jù)主要設備和用戶數(shù)據(jù)在多維度下的各個場景下的聚合值,如設備24小時內(nèi)活躍數(shù)量、綁定賬號數(shù)量等。生成的Excel表格包含了全部報表數(shù)據(jù),每日郵件定時發(fā)出。另外還有定制報表,這一部分是業(yè)務部門根據(jù)自己的特定需求提出,不包含在上面的常規(guī)報表模塊,需要定制化開發(fā)。

3 最終成果

? ? ?最終實現(xiàn)了千萬設備數(shù)量每日自動化地統(tǒng)計分析,支持數(shù)據(jù)可視化系統(tǒng)查詢多維度數(shù)據(jù),數(shù)據(jù)查詢效率相比于原來的mysql查詢提高10倍左右。

4 數(shù)據(jù)平臺研發(fā)經(jīng)驗

?數(shù)據(jù)平臺的研發(fā)經(jīng)驗是:

1、選用或者打造一款適合ETL組件,能夠對線上數(shù)據(jù)做清洗和計算的處理;

2、選用一款數(shù)據(jù)倉庫的組件,如hive,然后進行數(shù)據(jù)倉庫的建設,可以參考業(yè)界通用的eds,dim,dw層分層架構;

3、對數(shù)據(jù)的分析可以考慮采用kylin或clinkhouse,對數(shù)據(jù)做多維度的分析和預計算;

4、 根據(jù)業(yè)務對數(shù)據(jù)的需求設計數(shù)據(jù)應用,如數(shù)據(jù)報表、數(shù)據(jù)可視化系統(tǒng),推薦系統(tǒng)等,更高級的數(shù)據(jù)應用使用數(shù)據(jù)挖掘和機器學習等人工智能技術進行數(shù)據(jù)處理和開發(fā)數(shù)據(jù)產(chǎn)品。整個數(shù)據(jù)平臺的建設過程包括架構設計、組件調研和研發(fā)、業(yè)務調研和數(shù)據(jù)產(chǎn)品規(guī)劃等過程,架構設計和業(yè)務需求是重點,決定于組件的選型和功能。????????

4 遇到問題

  1. 因系統(tǒng)重啟并且誤用tmp臨時目錄作為hdfs的存儲目錄,導致hdfs和kylin的所有元數(shù)據(jù)和業(yè)務數(shù)據(jù)都丟失,解決方案為重新創(chuàng)建kylin model和cube等信息,hdfs重新建立數(shù)據(jù)倉庫表,已生成的統(tǒng)計數(shù)據(jù)丟失了,可視化系統(tǒng)改為從舊數(shù)據(jù)統(tǒng)計系統(tǒng)獲取數(shù)據(jù)。
  2. 數(shù)據(jù)分析任務失敗沒能及時發(fā)現(xiàn),需要人工檢查,有時候需要外部門反饋才發(fā)現(xiàn),恢復數(shù)據(jù)困難。解決方案為增加任務執(zhí)行失敗告警,監(jiān)控各個任務的執(zhí)行時間和結果,建立超時和失敗等告警,及時發(fā)現(xiàn)問題,及時恢復數(shù)據(jù)。
  3. 數(shù)據(jù)構建任務執(zhí)行過程中失敗,查看kylin相關日志,報OOM錯誤,再查看Hadoop的DataNode、resourcemanager的相關日志查看具體job的報錯信息,通過調整mapreduce.map.java.opts和mapreduce.reduce.java.opts的值修改map和reduce線程的jvm配置。

?

?

?

到了這里,關于基于Kylin的數(shù)據(jù)統(tǒng)計分析平臺架構設計與實現(xiàn)的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如若轉載,請注明出處: 如若內(nèi)容造成侵權/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領支付寶紅包贊助服務器費用

相關文章

  • 【數(shù)據(jù)分析】統(tǒng)計量

    【數(shù)據(jù)分析】統(tǒng)計量

    1. 均值、眾數(shù)描述數(shù)據(jù)的集中趨勢度量,四分位差、極差描述數(shù)據(jù)的離散程度。 2. 標準差、四分位差、異眾比率度量離散程度,協(xié)方差是度量相關性。 ?期望值分別為E[X]與E[Y]的兩個實隨機變量X與Y之間的協(xié)方差Cov(X,Y)定義為: 從直觀上來看,協(xié)方差表示的是兩個變量總體誤

    2024年02月11日
    瀏覽(28)
  • 數(shù)據(jù)科學、統(tǒng)計學、商業(yè)分析

    數(shù)據(jù)科學、統(tǒng)計學、商業(yè)分析是在各方面有著不同的側重和方向的領域。 ?1.專業(yè)技能 數(shù)據(jù)科學(Data Science):數(shù)據(jù)科學涉及從大量數(shù)據(jù)中提取有價值的信息、模式和洞察力的領域。它使用多種技術和領域知識,如統(tǒng)計學、機器學習、數(shù)據(jù)庫管理、數(shù)據(jù)可視化等,進行數(shù)據(jù)清

    2024年02月15日
    瀏覽(27)
  • 0基礎學習VR全景平臺篇 第90篇:智慧眼-數(shù)據(jù)統(tǒng)計

    0基礎學習VR全景平臺篇 第90篇:智慧眼-數(shù)據(jù)統(tǒng)計

    【 數(shù)據(jù)統(tǒng)計 】是按不同條件去統(tǒng)計整個智慧眼項目中的熱點,共包含四大塊,分別是數(shù)據(jù)統(tǒng)計、分類熱點、待審核、回收站,下面我們來逐一進行介紹。 1、數(shù)據(jù)統(tǒng)計 ① 可以按所屬分類、場景分組、所屬場景、熱點類型以及輸入熱點名去篩選對應的熱點; ② 支持數(shù)據(jù)導出

    2024年02月11日
    瀏覽(20)
  • 數(shù)據(jù)挖掘與數(shù)據(jù)分析之統(tǒng)計知識篇

    數(shù)據(jù)挖掘與數(shù)據(jù)分析之統(tǒng)計知識篇

    統(tǒng)計學上, 自由度 是指當以樣本的 統(tǒng)計量 估計 總體 的參數(shù)時, 樣本中獨立或能自由變化的數(shù)據(jù)個數(shù)叫自由度 。一般來說,自由度等于獨立變量減掉其衍生量數(shù)。舉例來說,變異數(shù)的定義是樣本減平均值(一個由樣本決定的衍生量),因此對N個隨機樣本而言,其自由度為N

    2024年02月11日
    瀏覽(25)
  • R語言 | 數(shù)據(jù)分析——統(tǒng)計繪圖

    R語言 | 數(shù)據(jù)分析——統(tǒng)計繪圖

    目錄 一、分類數(shù)據(jù)的圖形描述 1.1 條形圖barplot()函數(shù) 1.2 餅圖pie()函數(shù) ?二、量化數(shù)據(jù)的圖形描述 2.1 點圖與dotchart()函數(shù) 2.2 繪圖函數(shù)plot() ?2.2.1 繪制時間數(shù)列對象 ?2.2.2 向量數(shù)據(jù)與plot()函數(shù) 2.2.3 數(shù)據(jù)框數(shù)據(jù)與plot()函數(shù) 2.2.4? 因子型數(shù)據(jù)與plot()函數(shù) ?2.2.5 使用lines()函數(shù)繪制回

    2024年02月04日
    瀏覽(25)
  • 數(shù)據(jù)的統(tǒng)計描述和分析——假設檢驗

    對總體X的分布律或分布參數(shù)作某種假設,根據(jù)抽取的樣本觀察值,運用數(shù)理統(tǒng)計的分析方法,檢驗這種假設是否正確,從而決定接受假設或拒絕假設. 1. 參數(shù)檢驗 :如果觀測的分布函數(shù)類型已知,這時構造出的統(tǒng)計量依賴于總體的分布函數(shù),這種檢驗稱為參數(shù)檢驗.參數(shù)檢驗

    2024年02月14日
    瀏覽(27)
  • 【postgresql 基礎入門】聚合函數(shù),通用型,統(tǒng)計分析型,多種多樣的聚合函數(shù)滿足數(shù)據(jù)的大數(shù)據(jù)的統(tǒng)計分析

    ? 專欄內(nèi)容 : postgresql內(nèi)核源碼分析 手寫數(shù)據(jù)庫toadb 并發(fā)編程 個人主頁 :我的主頁 管理社區(qū) :開源數(shù)據(jù)庫 座右銘:天行健,君子以自強不息;地勢坤,君子以厚德載物. 在數(shù)據(jù)庫管理系統(tǒng)中,SQL(結構化查詢語言)的聚集函數(shù)扮演著至關重要的角色。它們能夠對一組值執(zhí)

    2024年04月10日
    瀏覽(27)
  • 【大數(shù)據(jù)學習篇6】 Spark操作統(tǒng)計分析數(shù)據(jù)操作

    通過前面的文章安裝好環(huán)境下面我們就可以開始來操作 使用MySQL的root用戶對數(shù)據(jù)庫進行修改以下設置

    2024年02月05日
    瀏覽(51)
  • 【hadoop】汽車銷售數(shù)據(jù)統(tǒng)計分析項目(部分)

    來源:《hadoop大數(shù)據(jù)開發(fā)實戰(zhàn)》 實驗一:統(tǒng)計乘用車輛和商用車輛的數(shù)量和銷售額分布 設計思路: 首先,寫一個Mapper來映射輸出所有乘用車輛(feiyingyun)和商用車輛(yingyun)的記錄。 然后,寫一個reduce統(tǒng)計出乘用車輛和商用車輛各自的數(shù)量,寫一個map的映射集合中,其中

    2024年02月09日
    瀏覽(97)
  • MATLAB 之 數(shù)據(jù)統(tǒng)計分析和多項式計算

    在實際應用中,經(jīng)常需要對各種數(shù)據(jù)進行統(tǒng)計處理,以便為科學決策提供依據(jù)。這些統(tǒng)計處理包括求數(shù)據(jù)序列的最大值和最小值、和與積、平均值和中值、累加和與累乘積、標準差和相關系數(shù)、排序等,MATLAB 提供了相關的函數(shù)來實現(xiàn)。 MATLAB提供了求數(shù)據(jù)序列最大值的函數(shù)m

    2024年02月08日
    瀏覽(21)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領取紅包,優(yōu)惠每天領

二維碼1

領取紅包

二維碼2

領紅包