国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【數(shù)倉(cāng)】通過(guò)Flume+kafka采集日志數(shù)據(jù)存儲(chǔ)到Hadoop

這篇具有很好參考價(jià)值的文章主要介紹了【數(shù)倉(cāng)】通過(guò)Flume+kafka采集日志數(shù)據(jù)存儲(chǔ)到Hadoop。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

相關(guān)文章

  • 【數(shù)倉(cāng)】基本概念、知識(shí)普及、核心技術(shù)
  • 【數(shù)倉(cāng)】數(shù)據(jù)分層概念以及相關(guān)邏輯
  • 【數(shù)倉(cāng)】Hadoop軟件安裝及使用(集群配置)
  • 【數(shù)倉(cāng)】Hadoop集群配置常用參數(shù)說(shuō)明
  • 【數(shù)倉(cāng)】zookeeper軟件安裝及集群配置
  • 【數(shù)倉(cāng)】kafka軟件安裝及集群配置
  • 【數(shù)倉(cāng)】flume軟件安裝及配置
  • 【數(shù)倉(cāng)】flume常見(jiàn)配置總結(jié),以及示例

一、flume有什么作用

Apache Flume是一個(gè)分布式、可靠且可用的大數(shù)據(jù)日志采集、聚合和傳輸系統(tǒng)。它主要用于將大量的日志數(shù)據(jù)從不同的數(shù)據(jù)源收集起來(lái),然后通過(guò)通道(Channel)進(jìn)行傳輸,最終將數(shù)據(jù)傳輸?shù)街付ǖ哪康牡?,如HDFS、HBase等。Flume具有高度可擴(kuò)展性、容錯(cuò)性和靈活性,可以適應(yīng)各種復(fù)雜的數(shù)據(jù)采集場(chǎng)景。

Flume的核心組件包括Source、Channel和Sink。Source負(fù)責(zé)從數(shù)據(jù)源中讀取數(shù)據(jù),可以是文件、網(wǎng)絡(luò)套接字、消息隊(duì)列等;Channel是數(shù)據(jù)的緩沖區(qū),用于在Source和Sink之間傳輸數(shù)據(jù);Sink負(fù)責(zé)將數(shù)據(jù)寫(xiě)入目標(biāo)存儲(chǔ)系統(tǒng),如HDFS、HBase、Kafka等。此外,F(xiàn)lume還支持多種類型的Source、Channel和Sink,用戶可以根據(jù)實(shí)際需求進(jìn)行選擇和配置。

Flume的主要作用是實(shí)現(xiàn)大規(guī)模數(shù)據(jù)采集和傳輸,實(shí)現(xiàn)數(shù)據(jù)的實(shí)時(shí)處理和分析,從而為企業(yè)提供更好的業(yè)務(wù)決策支持。在實(shí)際應(yīng)用中,F(xiàn)lume可以用于日志收集、事件跟蹤、數(shù)據(jù)流處理等場(chǎng)景。通過(guò)將數(shù)據(jù)從不同的數(shù)據(jù)源采集并傳輸?shù)街付ǖ哪康牡?,F(xiàn)lume可以幫助企業(yè)實(shí)現(xiàn)數(shù)據(jù)的集中存儲(chǔ)和管理,為后續(xù)的數(shù)據(jù)分析和挖掘提供基礎(chǔ)。

此外,F(xiàn)lume還具有可靠性機(jī)制和故障轉(zhuǎn)移和恢復(fù)機(jī)制,能夠保證數(shù)據(jù)傳輸?shù)目煽啃院桶踩?。同時(shí),F(xiàn)lume還支持客戶擴(kuò)展和自定義開(kāi)發(fā),用戶可以根據(jù)自己的需求進(jìn)行擴(kuò)展和優(yōu)化,使其更加適合特定的應(yīng)用場(chǎng)景。

總的來(lái)說(shuō),Apache Flume是一個(gè)功能強(qiáng)大、靈活可靠的大數(shù)據(jù)日志采集、聚合和傳輸系統(tǒng),它在大數(shù)據(jù)處理中起到了至關(guān)重要的作用。

二、環(huán)境準(zhǔn)備

準(zhǔn)備1臺(tái)虛擬機(jī)

  • Hadoop131:192.168.56.131

本例系統(tǒng)版本 CentOS-7.8,已安裝jdk1.8

關(guān)閉防火墻

systemctl stop firewalld

zookeeper、kafka 已安裝,且已啟動(dòng)

三、flume安裝配置

1、配置flume agent

1)本例演示 flume 去掉kafka數(shù)據(jù),然后存儲(chǔ)到hdfs中
2)完整數(shù)據(jù)通道是:log文件 > flume > kafka > flume > hdfs
3)flume 安裝目錄是 /data/flume
4)kafka 、Hadoop在前面已經(jīng)安裝過(guò)

新建配置文件 /data/flume/conf/job/kafka_to_hdfs_log.conf,內(nèi)容如下:

# 定義組件
# 這里定義了Flume agent的三個(gè)主要組件:source(數(shù)據(jù)源)、channel(通道)和sink(數(shù)據(jù)接收器)。
a2.sources=r2
a2.channels=c2
a2.sinks=k2

# 配置source
# 配置數(shù)據(jù)源為Kafka,指定了Kafka的相關(guān)參數(shù),如服務(wù)器地址、主題等。
a2.sources.r2.type = org.apache.flume.source.kafka.KafkaSource
# 每次從Kafka拉取的數(shù)據(jù)量
a2.sources.r2.batchSize=5000
# 拉取數(shù)據(jù)的間隔時(shí)間(毫秒)
a2.sources.r2.batchDurationMillis=2000
# Kafka服務(wù)器地址列表
a2.sources.r2.kafka.bootstrap.servers = hadoop131:9092,hadoop132:9092,hadoop133:9092
# 從Kafka的哪個(gè)主題拉取數(shù)據(jù)
a2.sources.r2.kafka.topics=topic_log
# 注釋掉的部分是關(guān)于攔截器的配置,攔截器可以用來(lái)對(duì)數(shù)據(jù)源的數(shù)據(jù)進(jìn)行預(yù)處理。
#a2.sources.r2.interceptors=i2
#a2.sources.r2.interceptors.i2.type = com.my.flume.interceptor.TimestampInterceptor

# 配置channel
# 配置通道為文件通道,指定了通道的相關(guān)參數(shù),如檢查點(diǎn)目錄、數(shù)據(jù)目錄等。
a2.channels.c2.type = file
# 檢查點(diǎn)目錄,用于存儲(chǔ)通道的狀態(tài)信息
a2.channels.c2.checkpointDir = /data/flume/checkpoint/behaviorl
# 數(shù)據(jù)目錄,用于存儲(chǔ)通道中的數(shù)據(jù)
a2.channels.c2.dataDirs = /data/flume/data/behaviorl
# 通道中文件的最大大小(字節(jié))
a2.channels.c2.maxFileSize = 2146435071
# 通道的容量,即可以存儲(chǔ)的最大事件數(shù)
a2.channels.c2.capacity = 1000000
# 通道的keepalive時(shí)間(秒)
a2.channels.c2.keepalive = 6

# 配置sink
# 配置數(shù)據(jù)接收器為HDFS,指定了HDFS的相關(guān)參數(shù),如文件路徑、文件前綴等。
a2.sinks.k2.type =hdfs
# HDFS上的文件路徑,使用了時(shí)間變量來(lái)動(dòng)態(tài)生成目錄
a2.sinks.k2.hdfs.path = /origin_data/user/log/topic_log/%Y-%m-%d
# HDFS上的文件前綴
a2.sinks.k2.hdfs.filePrefix=log
# 是否按照時(shí)間輪轉(zhuǎn)文件,這里設(shè)置為false,表示不按照時(shí)間輪轉(zhuǎn)
a2.sinks.k2.hdfs.round =false
# 文件輪轉(zhuǎn)的時(shí)間間隔(秒)
a2.sinks.k2.hdfs.rollInterval=10
# 文件輪轉(zhuǎn)的大小閾值(字節(jié))
a2.sinks.k2.hdfs.rollSize=134217728
# 文件輪轉(zhuǎn)的事件數(shù)閾值,這里設(shè)置為0,表示不按照事件數(shù)輪轉(zhuǎn)
a2.sinks.k2.hdfs.rollCount=0

# 控制輸出文件類型
# 設(shè)置輸出文件的類型為壓縮流格式,并使用gzip壓縮算法。
a2.sinks.k2.hdfs.fileType = CompressedStream
a2.sinks.k2.hdfs.codeC = gzip

# 組裝
# 將數(shù)據(jù)源、通道和數(shù)據(jù)接收器組裝在一起,形成一個(gè)完整的Flume agent。
a2.sources.r2.channels=c2
a2.sinks.k2.channel=c2

這個(gè)配置文件定義了一個(gè)Flume agent,它從Kafka中讀取數(shù)據(jù),通過(guò)文件通道進(jìn)行緩存,并最終將數(shù)據(jù)寫(xiě)入到HDFS中。在寫(xiě)入HDFS時(shí),使用了壓縮流格式,并對(duì)輸出文件進(jìn)行了gzip壓縮。同時(shí),還通過(guò)一些參數(shù)對(duì)文件的輪轉(zhuǎn)進(jìn)行了控制。

2、啟動(dòng)flume

1)創(chuàng)建flume啟動(dòng)腳本f2.sh

vi /usr/bin/f2.sh
# 修改文件權(quán)限
chmod 777 /usr/bin/f2.sh

2)復(fù)制如下內(nèi)容

#!/bin/bash

#1. 判斷參數(shù)個(gè)數(shù)
if [ $# -lt 1 ]
then
  echo Not Enough Arguement!
  exit;
fi

case $1 in
"start")
    #遍歷集群所有機(jī)器
    for host in hadoop131
    do
        echo --------------------  $host 日志收集 flume 啟動(dòng) --------------------
        ssh $host "nohup /data/flume/bin/flume-ng agent -n a2 -c /data/flume/conf/ -f /data/flume/conf/job/kafka_to_hdfs_log.conf >/dev/null 2>&1 &"
    done
;;
"stop")
    #遍歷集群所有機(jī)器
    for host in hadoop131
    do
        echo --------------------  $host 日志收集 flume 停止 --------------------
        ssh $host "ps -ef | grep kafka_to_hdfs_log | grep -v grep | awk '{print \$2}' |xargs -n1 kill 9"
    done
;;
*)
    echo "Input Args Error..."
;;
esac

3)通過(guò)集群腳本 f2.sh 操作

f2.sh start

flume啟動(dòng)命令說(shuō)明

以下是flume啟動(dòng)命令的常用參數(shù):

參數(shù) 默認(rèn)值 說(shuō)明
--name-n 無(wú)默認(rèn)值,必須指定 指定啟動(dòng)的Flume Agent的名稱。這個(gè)名稱應(yīng)該與配置文件中定義的agent的名稱一致。
--conf-c 無(wú)默認(rèn)值,通常設(shè)置為flume配置文件的目錄 指定Flume配置文件的目錄。這個(gè)目錄下應(yīng)該包含flume的配置文件。
--conf-file-f 無(wú)默認(rèn)值,必須指定 指定具體的Flume配置文件名。這個(gè)文件應(yīng)該包含了Flume Agent的配置信息。
--zkConnString-z 無(wú)默認(rèn)值 當(dāng)Flume配置使用Zookeeper進(jìn)行集群管理時(shí),指定Zookeeper的連接字符串。格式為主機(jī)名:端口號(hào),多個(gè)節(jié)點(diǎn)用逗號(hào)分隔。
-Dflume.root.logger 無(wú)默認(rèn)值,通常設(shè)置為INFO,console 設(shè)置Flume的日志級(jí)別和輸出方式。例如,INFO,console表示日志級(jí)別為INFO,并輸出到控制臺(tái)。也可以設(shè)置為輸出到日志文件。
--no-reload-conf false 如果設(shè)置為true,那么Flume將不會(huì)重新加載配置文件,即使配置文件發(fā)生了變化。
--help-h 無(wú)默認(rèn)值 顯示幫助信息,列出所有可用的啟動(dòng)參數(shù)。

需要注意的是,F(xiàn)lume的啟動(dòng)參數(shù)可能會(huì)因版本和具體的使用場(chǎng)景而有所不同。上表中的參數(shù)是最常用的,但并不是所有的參數(shù)都在所有版本的Flume中都可用。在實(shí)際使用時(shí),建議查閱對(duì)應(yīng)版本的Flume官方文檔或使用flume-ng agent --help命令查看可用的參數(shù)列表。

3、驗(yàn)證日志采集通路

1)在指定的log目錄中生成日志文件

cat app.log >> /data/applog/log/app_test.log

2)打開(kāi)Hadoop查看數(shù)據(jù),http://192.168.56.131:9870/

Hadoop在前面已經(jīng)安裝過(guò)

【數(shù)倉(cāng)】通過(guò)Flume+kafka采集日志數(shù)據(jù)存儲(chǔ)到Hadoop,數(shù)倉(cāng)從入門到熟練,flume,kafka,hadoop文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-840829.html

參考

  • https://flume.apache.org/

到了這里,關(guān)于【數(shù)倉(cāng)】通過(guò)Flume+kafka采集日志數(shù)據(jù)存儲(chǔ)到Hadoop的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 日志采集傳輸框架之 Flume,將監(jiān)聽(tīng)端口數(shù)據(jù)發(fā)送至Kafka

    日志采集傳輸框架之 Flume,將監(jiān)聽(tīng)端口數(shù)據(jù)發(fā)送至Kafka

    1、簡(jiǎn)介???????? ????????Flume 是 Cloudera 提供的一個(gè)高可用的,高可靠的,分布式的海量日志采集、聚合和傳 輸?shù)南到y(tǒng)。Flume 基于流式架構(gòu),主要有以下幾個(gè)部分組成。 ?主要組件介紹: 1)、 Flume Agent 是一個(gè) JVM 進(jìn)程,它以事件的形式將數(shù)據(jù)從源頭送至目的。Agent 主

    2024年01月22日
    瀏覽(29)
  • Hadoop高手之路8-Flume日志采集

    Hadoop高手之路8-Flume日志采集

    在大數(shù)據(jù)系統(tǒng)的開(kāi)發(fā)中,數(shù)據(jù)收集工作無(wú)疑是開(kāi)發(fā)者首要解決的一個(gè)難題,但由于生產(chǎn)數(shù)據(jù)的源頭豐富多樣,其中包含網(wǎng)站日志數(shù)據(jù)、后臺(tái)監(jiān)控?cái)?shù)據(jù)、用戶瀏覽網(wǎng)頁(yè)數(shù)據(jù)等,數(shù)據(jù)工程師要想將它們分門別類的采集到HDFS系統(tǒng)中,就可以使用Apache Flume(數(shù)據(jù)采集)系統(tǒng)。 1. Flum

    2024年02月05日
    瀏覽(23)
  • 數(shù)倉(cāng)項(xiàng)目6.0配置大全(hadoop/Flume/zk/kafka/mysql配置)

    數(shù)倉(cāng)項(xiàng)目6.0配置大全(hadoop/Flume/zk/kafka/mysql配置)

    我使用的root用戶,懶得加sudo 所有文件夾在/opt/module 所有安裝包在/opt/software 所有腳本文件在/root/bin 三臺(tái)虛擬機(jī):hadoop102-103-104 分發(fā)腳本 fenfa,放在~/bin下,chmod 777 fenfa給權(quán)限 集群規(guī)劃 ???????注意:NameNode和SecondaryNameNode不要安裝在同一臺(tái)服務(wù)器 ?????? 注意:ResourceMan

    2024年01月18日
    瀏覽(49)
  • Flume采集端口數(shù)據(jù)kafka消費(fèi)

    1.flume單獨(dú)搭建 2.Flume采集端口數(shù)據(jù)kafka消費(fèi)

    2024年02月06日
    瀏覽(21)
  • Flume采集數(shù)據(jù)到Kafka操作詳解

    目錄 一、創(chuàng)建一個(gè)Kafka主題 二、配置Flume 三、開(kāi)啟Flume 四、開(kāi)啟Kafka消費(fèi)者 五、復(fù)制文件到Flume監(jiān)控的source目錄下 六、查看Flume是否能夠成功采集 七、采集后查看Kafka消費(fèi)者主題 八、采集數(shù)據(jù)錯(cuò)誤解決辦法 1.Ctrl+C關(guān)閉flume 2.刪除出錯(cuò)的topic并重新創(chuàng)建 3.刪除對(duì)應(yīng)Flume文件中指定

    2024年02月09日
    瀏覽(24)
  • Flume學(xué)習(xí)-采集端口數(shù)據(jù)存入kafka

    Flume學(xué)習(xí)-采集端口數(shù)據(jù)存入kafka

    啟動(dòng)zookeeper、kafka并創(chuàng)建kafka主題 2、創(chuàng)建flume-kafka.conf配置文件 用于采集socket數(shù)據(jù)后存入kafka 在flume文件夾中的conf下新建flume-kafka.conf配置文件 設(shè)置監(jiān)聽(tīng)本地端口10050 netcat發(fā)送的socket數(shù)據(jù),講采集到的數(shù)據(jù)存入kafka的hunter主題中 3、啟動(dòng)flume ./bin/flume-ng :?jiǎn)?dòng)Flume-ng二進(jìn)制文件。

    2024年02月03日
    瀏覽(27)
  • 【flume實(shí)時(shí)采集mysql數(shù)據(jù)庫(kù)的數(shù)據(jù)到kafka】

    【flume實(shí)時(shí)采集mysql數(shù)據(jù)庫(kù)的數(shù)據(jù)到kafka】

    最近做了flume實(shí)時(shí)采集mysql數(shù)據(jù)到kafka的實(shí)驗(yàn),做個(gè)筆記,防止忘記 ?。?!建議從頭看到尾,因?yàn)橐恍┖?jiǎn)單的東西我在前面提了,后面沒(méi)提。 Kafka搭建:https://blog.csdn.net/cjwfinal/article/details/120803013 flume搭建:https://blog.csdn.net/cjwfinal/article/details/120441503?spm=1001.2014.3001.5502 編寫(xiě)配置

    2024年02月03日
    瀏覽(25)
  • 大數(shù)據(jù)之使用Flume監(jiān)聽(tīng)端口采集數(shù)據(jù)流到Kafka

    大數(shù)據(jù)之使用Flume監(jiān)聽(tīng)端口采集數(shù)據(jù)流到Kafka

    前言 題目: 一、讀題分析 二、處理過(guò)程?? 1.先在Kafka中創(chuàng)建符合題意的Kafka的topic ?創(chuàng)建符合題意的Kafka的topic 2.寫(xiě)出Flume所需要的配置文件 3.啟動(dòng)腳本然后啟動(dòng)Flume監(jiān)聽(tīng)端口數(shù)據(jù)并傳到Kafka 啟動(dòng)flume指令 啟動(dòng)腳本,觀察Flume和Kafka的變化 三、重難點(diǎn)分析 總結(jié)? ????????本題

    2024年02月08日
    瀏覽(27)
  • 一百七十二、Flume——Flume采集Kafka數(shù)據(jù)寫(xiě)入HDFS中(親測(cè)有效、附截圖)

    一百七十二、Flume——Flume采集Kafka數(shù)據(jù)寫(xiě)入HDFS中(親測(cè)有效、附截圖)

    作為日志采集工具Flume,它在項(xiàng)目中最常見(jiàn)的就是采集Kafka中的數(shù)據(jù)然后寫(xiě)入HDFS或者HBase中,這里就是用flume采集Kafka的數(shù)據(jù)導(dǎo)入HDFS中 kafka_2.13-3.0.0.tgz hadoop-3.1.3.tar.gz apache-flume-1.9.0-bin.tar.gz # cd ?/home/hurys/dc_env/flume190/conf # vi ?evaluation.properties ### Name agent, source, channels and sink ali

    2024年02月09日
    瀏覽(19)
  • (二十八)大數(shù)據(jù)實(shí)戰(zhàn)——Flume數(shù)據(jù)采集之kafka數(shù)據(jù)生產(chǎn)與消費(fèi)集成案例

    (二十八)大數(shù)據(jù)實(shí)戰(zhàn)——Flume數(shù)據(jù)采集之kafka數(shù)據(jù)生產(chǎn)與消費(fèi)集成案例

    本節(jié)內(nèi)容我們主要介紹一下flume數(shù)據(jù)采集和kafka消息中間鍵的整合。通過(guò)flume監(jiān)聽(tīng)nc端口的數(shù)據(jù),將數(shù)據(jù)發(fā)送到kafka消息的first主題中,然后在通過(guò)flume消費(fèi)kafka中的主題消息,將消費(fèi)到的消息打印到控制臺(tái)上。集成使用flume作為kafka的生產(chǎn)者和消費(fèi)者。關(guān)于nc工具、flume以及kafka的

    2024年02月09日
    瀏覽(20)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包