隨著數(shù)字經(jīng)濟蓬勃發(fā)展,數(shù)字化轉(zhuǎn)型步伐不斷加快,大數(shù)據(jù)技術(shù)的不斷更新與迭代,數(shù)據(jù)技術(shù)加速創(chuàng)新融合應用,在數(shù)字化發(fā)展的不同階段,數(shù)據(jù)管理工具歷經(jīng)了從數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)集市與數(shù)據(jù)湖,再到大數(shù)據(jù)平臺與如今的數(shù)據(jù)中臺的發(fā)展歷程。大數(shù)據(jù)平臺、數(shù)據(jù)湖、數(shù)據(jù)倉庫和數(shù)據(jù)中臺都不是某一個數(shù)據(jù)庫或者一種數(shù)據(jù)庫,在每個發(fā)展階段的數(shù)據(jù)產(chǎn)品并不是后一階段簡單的代替了前一階段,也不是說必須要有固定的技術(shù)棧和實施路線。準確的講,它們都有自己的功能、特點所在。
近年來,不斷快速迭代的業(yè)務模式,急速膨脹的數(shù)據(jù)量,還有新的大數(shù)據(jù)、云原生、人工智能等技術(shù)發(fā)展和數(shù)字化轉(zhuǎn)型加速的多重因素驅(qū)動下,數(shù)據(jù)產(chǎn)品實現(xiàn)了從數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)集市與數(shù)據(jù)湖,再到大數(shù)據(jù)平臺與如今的數(shù)據(jù)中臺的發(fā)展,在發(fā)展過程中實現(xiàn)了技術(shù)的迭代與互補,讓數(shù)據(jù)產(chǎn)品與業(yè)務場景耦合越來越深。
相信大家對各數(shù)據(jù)產(chǎn)品概念有了一個初步印象,下面就數(shù)據(jù)、大數(shù)據(jù)、數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)集市、數(shù)據(jù)湖、大數(shù)據(jù)平臺、數(shù)據(jù)中臺等概念詳細為大家進行介紹。
一、數(shù)據(jù)和大數(shù)據(jù)
什么是數(shù)據(jù)?
在《數(shù)據(jù)庫系統(tǒng)概論(第5版)》給出的定義是:數(shù)據(jù)是指對客觀事件進行記錄并可以鑒別的符號,是對客觀事物的性質(zhì)、狀態(tài)以及相互關(guān)系等進行記載的物理符號或這些物理符號的組合。它是可識別的、抽象的符號。在計算機科學中,數(shù)據(jù)是所有能輸入計算機并被計算機程序處理的符號的介質(zhì)的總稱,是用于輸入電子計算機進行處理,具有一定意義的數(shù)字、字母、符號和模擬量等的通稱。
什么是大數(shù)據(jù)?
麥肯錫全球研究所給出的定義是:一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價值密度低四大特征。
海量的數(shù)據(jù)規(guī)模(Volume),大數(shù)據(jù)所采集、存儲和計算的數(shù)據(jù)規(guī)模都非常大,大數(shù)據(jù)量通常以TB、PB、甚至EB為單位計量。這些數(shù)據(jù)來自多個來源,包括傳感器、社交媒體、日志文件等。
快速的數(shù)據(jù)流轉(zhuǎn)(Velocity),大數(shù)據(jù)強調(diào)數(shù)據(jù)處理的實時性和時效性,大數(shù)據(jù)的生成速度非???,需要實時或近實時地進行處理和分析。例如,金融交易數(shù)據(jù)、傳感器數(shù)據(jù)等都需要及時響應和處理。
多樣的數(shù)據(jù)類型(Variety),大數(shù)據(jù)的種類和來源多樣化,不僅包含結(jié)構(gòu)化數(shù)據(jù)(如表格數(shù)據(jù)),還包括非結(jié)構(gòu)化數(shù)據(jù)(如文本、圖像、音頻等)。
較低的價值密度(Value),大數(shù)據(jù)的價值密度相對較低,數(shù)據(jù)的價值密度和數(shù)據(jù)的規(guī)模呈反相關(guān),數(shù)據(jù)的規(guī)模越大,數(shù)據(jù)的價值密度越低。
我們再往深處思考一下,為什么需要大數(shù)據(jù)(大數(shù)據(jù)技術(shù))?在這個數(shù)據(jù)爆炸增長的時代,大數(shù)據(jù)就是在合理時間內(nèi)達到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營決策更積極目的的資訊。大數(shù)據(jù)最大的價值即在于從大量低價值密度數(shù)據(jù)中挖掘出對分析和預測等有價值的信息。
二、數(shù)據(jù)分析與數(shù)據(jù)挖掘
什么是數(shù)據(jù)分析?
數(shù)據(jù)分析可以分為廣義的數(shù)據(jù)分析和狹義的數(shù)據(jù)分析。廣義的數(shù)據(jù)分析就包括狹義的數(shù)據(jù)分析和數(shù)據(jù)挖掘。我們在工作中經(jīng)常常說的數(shù)據(jù)分析指的是狹義的數(shù)據(jù)分析。數(shù)據(jù)分析是指用適當?shù)慕y(tǒng)計分析方法對收集來的大量數(shù)據(jù)進行分析,將它們加以匯總和理解并消化,以求最大化地開發(fā)數(shù)據(jù)的功能,發(fā)揮數(shù)據(jù)的作用。數(shù)據(jù)分析是為了提取有用信息和形成結(jié)論而對數(shù)據(jù)加以詳細研究和概括總結(jié)的過程。
什么是數(shù)據(jù)挖掘?
數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。數(shù)據(jù)挖掘通常與計算機科學有關(guān),并通過統(tǒng)計、在線分析處理、情報檢索、機器學習、專家系統(tǒng)(依靠過去的經(jīng)驗法則)和模式識別等諸多方法來實現(xiàn)上述目標。
三、什么是數(shù)據(jù)庫?
簡單來說就像冰箱是存放食物的地方一樣,數(shù)據(jù)庫是存放數(shù)據(jù)的地方。數(shù)據(jù)庫是按照數(shù)據(jù)結(jié)構(gòu)來組織、存儲和管理數(shù)據(jù)的倉庫,是一個長期存儲在計算機內(nèi)的、有組織的、可共享的、統(tǒng)一管理的大量數(shù)據(jù)的集合。一般而言,我們所說的數(shù)據(jù)庫指的是數(shù)據(jù)庫管理系統(tǒng),并不單指一個數(shù)據(jù)庫實例。數(shù)據(jù)庫管理系統(tǒng)一般分為“關(guān)系型數(shù)據(jù)庫”與“非關(guān)系型數(shù)據(jù)庫”。
關(guān)系型數(shù)據(jù)庫
過去數(shù)據(jù)庫一共有三種模型,即層次模型,網(wǎng)狀模型,關(guān)系模型。
(1)首先層次模型的數(shù)據(jù)結(jié)構(gòu)為樹狀結(jié)構(gòu),即是一種上下級的層級關(guān)系組織數(shù)據(jù)的一種方式;
(2)網(wǎng)狀模型的數(shù)據(jù)結(jié)構(gòu)為網(wǎng)狀結(jié)構(gòu),即將每個數(shù)據(jù)節(jié)點與其他很多節(jié)點都連接起來;
(3)關(guān)系模型的數(shù)據(jù)結(jié)構(gòu)可以看做是一個二維表格,任何數(shù)據(jù)都可以通過行號與列號來唯一確定;
相比于層次模型和網(wǎng)狀模型,關(guān)系模型理解和使用最簡單,最終基于關(guān)系型數(shù)據(jù)庫在各行各業(yè)應用了起來。常用的關(guān)系型數(shù)據(jù)庫有Oracle,MySQL,DB2,Microsoft SQL Sever等。
非關(guān)系型數(shù)據(jù)庫
非關(guān)系型數(shù)據(jù)庫是以對象為單位的數(shù)據(jù)結(jié)構(gòu),非關(guān)系型數(shù)據(jù)庫通常指數(shù)據(jù)以對象的形式存儲在數(shù)據(jù)庫中,而對象之間的關(guān)系通過每個對象自身的屬性來決定。簡單來說非關(guān)系型數(shù)據(jù)庫與傳統(tǒng)的關(guān)系型數(shù)據(jù)庫的區(qū)別在于非關(guān)系型數(shù)據(jù)庫主要存儲沒有固定格式的超大規(guī)模數(shù)據(jù),例如鍵值對型,文檔型,列存儲類數(shù)據(jù),常見的非關(guān)系型數(shù)據(jù)庫有Hbase,Redis,MongoDB,Neo4j等
四、什么是數(shù)據(jù)倉庫
隨著時間的發(fā)展,各個業(yè)務系統(tǒng)會源源不斷的產(chǎn)生數(shù)據(jù),一般這些數(shù)據(jù)會存儲在數(shù)據(jù)庫中,但是當業(yè)務系統(tǒng)運行超過一定時間后,積壓的數(shù)據(jù)會越來越多,這些數(shù)據(jù)增加了數(shù)據(jù)庫的負載,拖慢了運行速度。積壓的數(shù)據(jù)大部分是調(diào)用頻率低的冷數(shù)據(jù),為了避免冷數(shù)據(jù)與歷史數(shù)據(jù)收集影響數(shù)據(jù)庫正常運行,需要定期將冷數(shù)據(jù)從數(shù)據(jù)庫中轉(zhuǎn)移出來存儲到一個專門存放歷史數(shù)據(jù)的倉庫里面,后續(xù)根據(jù)需要在這個倉庫進行數(shù)據(jù)抽取,也就是數(shù)據(jù)倉庫。
數(shù)據(jù)倉庫誕生于 1990 年,是一個相對具體的功能概念,見名知意,其實就是存儲數(shù)據(jù)的倉庫,數(shù)據(jù)倉庫(Data Warehouse)是一個面向主題的(Subject Oriented)、集成的(Integrated)、相對穩(wěn)定的(Non-Volatile)、反映歷史變化的(Time Variant)數(shù)據(jù)集合,用于支持管理決策和信息的全局共享。其主要功能是將組織透過資訊系統(tǒng)之聯(lián)機事務處理(OLTP)經(jīng)年累月所累積的大量資料,透過數(shù)據(jù)倉庫理論所特有的資料儲存架構(gòu),分析出有價值的資訊。
面向主題(Subject Oriented):用戶使用數(shù)據(jù)倉庫進行決策時所關(guān)心的重點方面,如:收入、客戶、銷售渠道等;所謂面向主題,是指數(shù)據(jù)倉庫內(nèi)的信息是按主題進行組織的,而不是像業(yè)務支撐系統(tǒng)那樣是按照業(yè)務功能進行組織的。
集成(Integrated):數(shù)據(jù)倉庫中的信息不是從各個業(yè)務系統(tǒng)中簡單抽取出來的,而是經(jīng)過一系列加工、整理將各種數(shù)據(jù)源的數(shù)據(jù)按照統(tǒng)一的標準集成于數(shù)據(jù)倉庫中,因此數(shù)據(jù)倉庫中的信息是關(guān)于整個企業(yè)的一致的全局信息。
相對穩(wěn)定(Non-Volatile):數(shù)據(jù)倉庫的數(shù)據(jù)是一系列的歷史快照,主要為決策者分析提供數(shù)據(jù),一般僅允許查詢,不允許修改刪除,數(shù)據(jù)倉庫的數(shù)據(jù)僅定期需要由業(yè)務數(shù)據(jù)庫轉(zhuǎn)移,加載,刷新。
反映歷史變化(Time Variant):數(shù)據(jù)倉庫內(nèi)的信息并不只是反映企業(yè)當前的狀態(tài),而是記錄了從過去某一時點到當前各個階段的信息。通過這些信息,可以對企業(yè)的發(fā)展歷程和未來趨勢做出定量分析和預測。
五、什么是數(shù)據(jù)集市?
數(shù)據(jù)集市(Data Mart),也叫數(shù)據(jù)市場,就是滿足特定的部門或者用戶的需求,按照多維的方式進行存儲,包括定義維度、需要計算的指標、維度的層次等,生成面向決策分析需求的數(shù)據(jù)立方體。所以數(shù)據(jù)集市的特點在于結(jié)構(gòu)清晰,針對性強且擴展性良好,由于僅僅對某一個領(lǐng)域建立,容易維護修改。
從范圍上來說,數(shù)據(jù)集市的數(shù)據(jù)是從數(shù)據(jù)庫,或者是更加專業(yè)的數(shù)據(jù)倉庫中抽取出來的。數(shù)據(jù)集市分為從屬的數(shù)據(jù)集市與獨立的數(shù)據(jù)集市:
獨立型數(shù)據(jù)集市:數(shù)據(jù)來自于操作型數(shù)據(jù)庫,是為了滿足特殊用戶而建立的一種分析型環(huán)境。開發(fā)周期一般較短,具有靈活性,但是因為脫離了數(shù)據(jù)倉庫,獨立建立的數(shù)據(jù)集市可能會導致信息孤島的存在,不能以全局的視角去分析數(shù)據(jù)。
從屬型數(shù)據(jù)集市:數(shù)據(jù)來自于企業(yè)的數(shù)據(jù)倉庫,這樣會導致開發(fā)周期的延長,但是從屬型數(shù)據(jù)集市在體系結(jié)構(gòu)上比獨立型數(shù)據(jù)集市更穩(wěn)定,可以提高數(shù)據(jù)分析的質(zhì)量,保證數(shù)據(jù)的一致性。
六、什么是數(shù)據(jù)湖?
目前許多企業(yè)都在構(gòu)建或者計劃構(gòu)建自己的數(shù)據(jù)湖,各方對數(shù)據(jù)湖都有自己的理解與定義。
1、Wikipedia
數(shù)據(jù)湖是一類存儲數(shù)據(jù)自然/原始格式的系統(tǒng)或存儲,通常是對象塊或者文件。數(shù)據(jù)湖通常是企業(yè)中全量數(shù)據(jù)的單一存儲。全量數(shù)據(jù)包括原始系統(tǒng)所產(chǎn)生的原始數(shù)據(jù)拷貝以及為了各類任務而產(chǎn)生的轉(zhuǎn)換數(shù)據(jù),各類任務包括報表、可視化、高級分析和機器學習。數(shù)據(jù)湖中包括來自于關(guān)系型數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù)(行和列)、半結(jié)構(gòu)化數(shù)據(jù)(如CSV、日志、XML、JSON)、非結(jié)構(gòu)化數(shù)據(jù)(如email、文檔、PDF等)和二進制數(shù)據(jù)(如圖像、音頻、視頻)。數(shù)據(jù)沼澤是一種退化的、缺乏管理的數(shù)據(jù)湖,數(shù)據(jù)沼澤對于用戶來說要么是不可訪問的要么就是無法提供足夠的價值。
2、亞馬遜AWS
數(shù)據(jù)湖是一個集中式存儲庫,允許您以任意規(guī)模存儲所有結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。您可以按原樣存儲數(shù)據(jù)(無需先對數(shù)據(jù)進行結(jié)構(gòu)化處理),并運行不同類型的分析 – 從控制面板和可視化到大數(shù)據(jù)處理、實時分析和機器學習,以指導做出更好的決策。
3、微軟
數(shù)據(jù)湖包括一切使得開發(fā)者、數(shù)據(jù)科學家、分析師能更簡單的存儲、處理數(shù)據(jù)的能力,這些能力使得用戶可以存儲任意規(guī)模、任意類型、任意產(chǎn)生速度的數(shù)據(jù),并且可以跨平臺、跨語言的做所有類型的分析和處理。數(shù)據(jù)湖在能幫助用戶加速應用數(shù)據(jù)的同時,消除了數(shù)據(jù)采集和存儲的復雜性,同時也能支持批處理、流式計算、交互式分析等。數(shù)據(jù)湖能同現(xiàn)有的數(shù)據(jù)管理和治理的IT投資一起工作,保證數(shù)據(jù)的一致、可管理和安全。它也能同現(xiàn)有的業(yè)務數(shù)據(jù)庫和數(shù)據(jù)倉庫無縫集成,幫助擴展現(xiàn)有的數(shù)據(jù)應用。
數(shù)據(jù)湖的特性關(guān)于數(shù)據(jù)湖的定義其實很多,但是基本上都圍繞著以下幾個特性展開。
1、數(shù)據(jù)湖需要提供足夠用的數(shù)據(jù)存儲能力,這個存儲保存了一個企業(yè)/組織中的所有數(shù)據(jù)。
2、數(shù)據(jù)湖可以存儲海量的任意類型的數(shù)據(jù),包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。
3、數(shù)據(jù)湖中的數(shù)據(jù)是原始數(shù)據(jù),是業(yè)務數(shù)據(jù)的完整副本。數(shù)據(jù)湖中的數(shù)據(jù)保持了他們在業(yè)務系統(tǒng)中原來的樣子。
4、數(shù)據(jù)湖需要具備完善的數(shù)據(jù)管理能力(完善的元數(shù)據(jù)),可以管理各類數(shù)據(jù)相關(guān)的要素,包括數(shù)據(jù)源、數(shù)據(jù)格式、連接信息、數(shù)據(jù)schema、權(quán)限管理等。
5、數(shù)據(jù)湖需要具備多樣化的分析能力,包括但不限于批處理、流式計算、交互式分析以及機器學習;同時,還需要提供一定的任務調(diào)度和管理能力。
6、數(shù)據(jù)湖需要具備完善的數(shù)據(jù)生命周期管理能力。不光需要存儲原始數(shù)據(jù),還需要能夠保存各類分析處理的中間結(jié)果,并完整的記錄數(shù)據(jù)的分析處理過程,能幫助用戶完整詳細追溯任意一條數(shù)據(jù)的產(chǎn)生過程。
7、數(shù)據(jù)湖需要具備完善的數(shù)據(jù)獲取和數(shù)據(jù)發(fā)布能力。數(shù)據(jù)湖需要能支撐各種各樣的數(shù)據(jù)源,并能從相關(guān)的數(shù)據(jù)源中獲取全量/增量數(shù)據(jù);然后規(guī)范存儲。數(shù)據(jù)湖能將數(shù)據(jù)分析處理的結(jié)果推送到合適的存儲引擎中,滿足不同的應用訪問需求。
8、對于大數(shù)據(jù)的支持,包括超大規(guī)模存儲以及可擴展的大規(guī)模數(shù)據(jù)處理能力。
七、什么是大數(shù)據(jù)平臺?
大數(shù)據(jù)平臺是一個集數(shù)據(jù)接入、數(shù)據(jù)處理、數(shù)據(jù)存儲、查詢檢索、分析挖掘等、應用接口等功能為一體的平臺。最典型的是基于Hadoop生態(tài)構(gòu)建的大數(shù)據(jù)框架,Hadoop生態(tài)的相關(guān)產(chǎn)品包括Spark、Flink、Flume、Kafka、Hive、HBase等等等經(jīng)典開源產(chǎn)品。國內(nèi)絕大部分公司的大數(shù)據(jù)平臺都是基于Apache和Cloudera這兩個分支Hadoop生態(tài)技術(shù)的產(chǎn)品進行商業(yè)化包裝和改進。例如:阿里云EMR、騰訊TBDS、華為FusionInsight、新華三DataEngine、浪潮Insight HD、中興DAP等產(chǎn)品。
大數(shù)據(jù)平臺當然也不局限于某一個大數(shù)據(jù)框架,可以根據(jù)實際業(yè)務需求去選擇合適的技術(shù)組件進行整合,是一個物理存在的平臺,為數(shù)據(jù)倉庫、數(shù)據(jù)湖、數(shù)據(jù)中臺的構(gòu)建提供基礎(chǔ)支撐。
八、什么是數(shù)據(jù)中臺?
阿里巴巴于2017年云棲大會正式對外提出數(shù)據(jù)中臺概念,數(shù)據(jù)中臺的出現(xiàn),就是為了彌補數(shù)據(jù)開發(fā)和應用開發(fā)之間,由于開發(fā)速度不匹配,出現(xiàn)的響應力跟不上的問題。狹義來看,數(shù)據(jù)中臺是一套實現(xiàn)數(shù)據(jù)資產(chǎn)化和服務復用的工具,是數(shù)據(jù)采集交換、共享融合、組織處理、建模分析、管理治理和服務應用于一體的綜合性數(shù)據(jù)能力平臺,在大數(shù)據(jù)生態(tài)中處于承上啟下的功能,提供面向數(shù)據(jù)應用支撐的底座能力。廣義來看數(shù)據(jù)中臺是一套可持續(xù)“讓企業(yè)的數(shù)據(jù)用起來”的機制,一種戰(zhàn)略選擇和組織形式,是依據(jù)企業(yè)特有的業(yè)務模式和組織架構(gòu),通過有形的產(chǎn)品和實施方法論支撐構(gòu)建一套持續(xù)不斷把數(shù)據(jù)變成資產(chǎn)并服務于業(yè)務的機制。
在大數(shù)據(jù)技術(shù)發(fā)展和企業(yè)數(shù)字化轉(zhuǎn)型加速的雙重驅(qū)動下,數(shù)據(jù)中臺在多場景快速落地。從廠商類型來看,阿里云、華為云、騰訊云、亞馬遜云等平臺生態(tài)廠商,用友、金蝶、新華三、浪潮、明略科技、星環(huán)科技等解決方案廠商,網(wǎng)易數(shù)帆、數(shù)瀾科技、云徒科技等獨立中臺廠商以及滴滴、美團等自研廠商的邊界開始模糊,數(shù)智服務的生態(tài)協(xié)同明顯。
九、數(shù)據(jù)產(chǎn)品的區(qū)別與聯(lián)系
數(shù)據(jù)庫與數(shù)據(jù)倉庫的區(qū)別與聯(lián)系
解釋數(shù)據(jù)庫與數(shù)據(jù)倉庫的區(qū)別,這里引入兩個名詞OLTP(On-Line Transaction Processing,聯(lián)機事務處理)與OLAP(On-Line Analytical Processing,聯(lián)機分析處理)。數(shù)據(jù)庫是為了解決OLTP而存在的,而數(shù)據(jù)倉庫是為了分析數(shù)據(jù)而存在的。嚴格來講數(shù)據(jù)倉庫不是一門技術(shù),也不是一個產(chǎn)品,數(shù)據(jù)倉庫涉及數(shù)據(jù)建模,數(shù)據(jù)抽取ETL,數(shù)據(jù)可視化等一系列的流程,是一種數(shù)據(jù)解決方案,通常需要多種技術(shù)進行組合使用。
數(shù)據(jù)庫的數(shù)據(jù)是數(shù)據(jù)倉庫的數(shù)據(jù)源,即將數(shù)據(jù)庫的數(shù)據(jù)加載至數(shù)據(jù)倉庫,數(shù)據(jù)倉庫的本質(zhì)是OLAP,即是做在線分析處理,這是與數(shù)據(jù)庫的本質(zhì)區(qū)別。對于一個業(yè)務系統(tǒng)而言,數(shù)據(jù)庫是必須的,數(shù)據(jù)倉庫并不是必須的,只有在業(yè)務穩(wěn)定運轉(zhuǎn)的情況下,才會去構(gòu)建企業(yè)級數(shù)據(jù)倉庫,通過數(shù)據(jù)分析,數(shù)據(jù)挖掘來輔助業(yè)務決策,實現(xiàn)錦上添花。
數(shù)據(jù)倉庫與數(shù)據(jù)集市的區(qū)別與聯(lián)系
數(shù)據(jù)倉庫和數(shù)據(jù)集市在規(guī)模、數(shù)據(jù)處理的速度和復雜性、以及數(shù)據(jù)的范圍方面存在明顯的差異,數(shù)據(jù)倉庫是一個大型的、集中的、一體化的數(shù)據(jù)存儲系統(tǒng),用于存儲和處理來自多個源的數(shù)據(jù)。數(shù)據(jù)倉庫的目標是支持企業(yè)的決策制定和戰(zhàn)略執(zhí)行。而數(shù)據(jù)集市,則是一個更小型的、針對特定業(yè)務部門或主題的數(shù)據(jù)存儲系統(tǒng)。而且,兩者的構(gòu)建和使用方式也有所不同,數(shù)據(jù)倉庫通常由企業(yè)級的技術(shù)團隊進行構(gòu)建和維護,數(shù)據(jù)集市則更多地依賴于特定的業(yè)務部門或主題專家。
數(shù)據(jù)湖與數(shù)據(jù)倉庫的區(qū)別與聯(lián)系
數(shù)據(jù)倉庫和數(shù)據(jù)湖的重大區(qū)別是:數(shù)據(jù)倉庫中數(shù)據(jù)在進入倉庫之前需要是事先歸類,以便于未來的分析。數(shù)據(jù)倉庫是高度結(jié)構(gòu)化的架構(gòu),數(shù)據(jù)在轉(zhuǎn)換之前是無法加載到數(shù)據(jù)倉庫的,用戶可以直接獲得分析數(shù)據(jù)。而在數(shù)據(jù)湖中,數(shù)據(jù)直接加載到數(shù)據(jù)湖中,然后根據(jù)分析的需要再轉(zhuǎn)換數(shù)據(jù),數(shù)據(jù)湖擁有強大的信息處理能力和處理幾乎無限的并發(fā)任務或工作的能力。
從產(chǎn)品形態(tài)上來說,數(shù)據(jù)倉庫往往是獨立標準化的產(chǎn)品,數(shù)據(jù)湖更像是一種架構(gòu)指導,是一套產(chǎn)品組合的解決方案——需要配合一系列的周邊工具,來實現(xiàn)業(yè)務需要的數(shù)據(jù)湖。
數(shù)據(jù)中臺、數(shù)據(jù)平臺、數(shù)據(jù)倉庫和數(shù)據(jù)湖的區(qū)別與聯(lián)系
數(shù)據(jù)中臺、數(shù)據(jù)平臺、數(shù)據(jù)倉庫和數(shù)據(jù)湖在某個維度上為業(yè)務產(chǎn)生價值的形式有不同的側(cè)重,總的來說:
數(shù)據(jù)中臺是企業(yè)級的邏輯概念,體現(xiàn)企業(yè)數(shù)據(jù)向業(yè)務價值轉(zhuǎn)化的能力,距離業(yè)務更近,能夠更快速的響應業(yè)務和應用開發(fā)需求,從而為業(yè)務提供速度更快的服務。
數(shù)據(jù)平臺是在大數(shù)據(jù)基礎(chǔ)上出現(xiàn)的融合了結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)基礎(chǔ)平臺,為業(yè)務提供服務的方式主要是直接提供數(shù)據(jù)集。
數(shù)據(jù)倉庫是一個相對具體的功能概念,是存儲和管理一個或多個主題數(shù)據(jù)的集合。
數(shù)據(jù)湖與數(shù)據(jù)倉庫相比,數(shù)據(jù)湖缺乏結(jié)構(gòu)性,可存儲任何形式(包括結(jié)構(gòu)化和非結(jié)構(gòu)化)和任何格式(包括文本、音頻、視頻和圖像)的原始數(shù)據(jù),具有更高的敏捷性。
十、總? 結(jié)
本文對數(shù)據(jù)、大數(shù)據(jù)、數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)集市、數(shù)據(jù)湖、大數(shù)據(jù)平臺、數(shù)據(jù)中臺等概念的發(fā)展歷程、定義、應用場景、區(qū)別與聯(lián)系進行詳細介紹,幫助大家更好的理解和掌握大數(shù)據(jù)領(lǐng)域相關(guān)概念,方便以后的學習與工作。文章來源:http://www.zghlxwxcb.cn/news/detail-858355.html
如果您公司對業(yè)務場景選擇云產(chǎn)品架構(gòu)有疑問,可找專業(yè)的架構(gòu)老師幫您解答疑惑。我們公司孫女士(136-0304-8836)從事云服務6年多,有專業(yè)的技術(shù)團隊。好的優(yōu)惠政策是我們的優(yōu)勢,但不是我們的標簽!竭力為您提供更優(yōu)質(zhì)的服務以及更優(yōu)惠的上云方案。文章來源地址http://www.zghlxwxcb.cn/news/detail-858355.html
到了這里,關(guān)于數(shù)據(jù)中臺、數(shù)據(jù)平臺、數(shù)據(jù)湖、數(shù)據(jù)倉庫傻傻分不清楚?帶你一文理清的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!