国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

猿創(chuàng)征文|Hadoop大數(shù)據(jù)技術(shù)綜合實(shí)驗(yàn)

這篇具有很好參考價(jià)值的文章主要介紹了猿創(chuàng)征文|Hadoop大數(shù)據(jù)技術(shù)綜合實(shí)驗(yàn)。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

概述

當(dāng)前互聯(lián)網(wǎng)應(yīng)用中,萬(wàn)維網(wǎng)(World Wide Web)應(yīng)用占據(jù)了絕大部分的份額。萬(wàn)維網(wǎng)應(yīng)用對(duì)外提供服務(wù)需要架設(shè)Web服務(wù)器軟件。典型的Web服務(wù)器軟件有Apache、Nginx等。Web服務(wù)器軟件在運(yùn)行過(guò)程中會(huì)寫(xiě)入各種日志到磁盤(pán)文件中。例如,Apache Web服務(wù)器軟件運(yùn)行過(guò)程中,會(huì)產(chǎn)生access.log文件,記錄用戶訪問(wèn)日志。
繁忙的Web服務(wù)器軟件每天產(chǎn)生大量的日志記錄。日積月累之后,這些日志所占據(jù)的存儲(chǔ)會(huì)變得非常大。此時(shí),單機(jī)無(wú)法滿足分析處理日志的需求。因此,我們需要將日志文件存儲(chǔ)在HDFS分布式文件系統(tǒng)中。使用開(kāi)源的Apache Flume軟件,能夠從Web服務(wù)器集群導(dǎo)入日志到HDFS集群。
通過(guò)Apache Flume采集到HDFS的日志文件是原始的格式,這種格式通常并不利于分析統(tǒng)計(jì)。因此,下一步要做的是對(duì)日志文件進(jìn)行預(yù)處理,產(chǎn)生更規(guī)整的數(shù)據(jù)。這個(gè)過(guò)程可以使用MapReduce來(lái)進(jìn)行,從HDFS中讀取原始日志文件,處理之后的數(shù)據(jù)仍然存放在HDFS上。
經(jīng)過(guò)前面的準(zhǔn)備,接下來(lái)可以對(duì)日志數(shù)據(jù)進(jìn)行分析和統(tǒng)計(jì)了。最開(kāi)始,人們直接使用MapReduce進(jìn)行統(tǒng)計(jì)的工作。但是很快,大家發(fā)現(xiàn)編寫(xiě)MapReduce程序是一件很麻煩的事情,而且,部分?jǐn)?shù)據(jù)分析人員不具備Java編程的能力。為了解決這個(gè)問(wèn)題,Apache Hive軟件被創(chuàng)建出來(lái)。借助Apache Hive,可以使用SQL語(yǔ)言讀寫(xiě)和管理HDFS上的數(shù)據(jù)。在本次實(shí)踐的最后一個(gè)環(huán)節(jié),你將使用Apache Hive,對(duì)預(yù)處理之后的規(guī)整數(shù)據(jù)進(jìn)行分析統(tǒng)計(jì)。

總體流程架構(gòu)如圖:
hadoop實(shí)驗(yàn),Hadoop大數(shù)據(jù)技術(shù),hadoop,大數(shù)據(jù),網(wǎng)站訪問(wèn)日志采集、處理及分析

監(jiān)控日志文件

日志文件數(shù)據(jù)是某個(gè)高校WWW服務(wù)器七個(gè)月的HTTP請(qǐng)求數(shù)據(jù) (時(shí)間是從1995/6/1 00:00:00到1995/12/31 23:59:59)。日志數(shù)據(jù)分別存在文件xaa、xab、xac中,首先將它保存到/home/ubuntu/com_experiment目錄中。

1. 啟動(dòng)hadoop進(jìn)行實(shí)驗(yàn)操作:

hadoop namenode -format
start-all.sh
jps

成功啟動(dòng)如圖:

hadoop實(shí)驗(yàn),Hadoop大數(shù)據(jù)技術(shù),hadoop,大數(shù)據(jù),網(wǎng)站訪問(wèn)日志采集、處理及分析

2. 在/home/ubuntu目錄下創(chuàng)建flume.conf文件,內(nèi)容配置如下(注:本地路徑與hdfs路徑):

# Name the components on this agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# 定義源: spooldir
a1.sources.r1.type = spooldir
# 指定監(jiān)控目錄(本地路徑)
a1.sources.r1.spoolDir = /home/ubuntu/com_experiment
a1.sources.r1.decodeErrorPolicy = IGNORE

# Describe the sink(hdfs路徑)
a1.sinks.k1.type = hdfs
a1.sinks.k1.hdfs.path =  /flume/20220706/ 
a1.sinks.k1.hdfs.fileType = DataStream
a1.sinks.k1.hdfs.useLocalTimeStamp = true
a1.sinks.k1.hdfs.rollSize = 0
a1.sinks.k1.hdfs.rollCount = 0

# Use a channel which buffers events in memory
a1.channels.c1.type = memory

# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

3. 運(yùn)行flume配置的命令,代碼如下:

flume-ng agent -f /home/ubuntu/flume.conf -n a1

運(yùn)行結(jié)果如圖:

hadoop實(shí)驗(yàn),Hadoop大數(shù)據(jù)技術(shù),hadoop,大數(shù)據(jù),網(wǎng)站訪問(wèn)日志采集、處理及分析

Apache Flume是一種分布式的可靠的系統(tǒng),主要用于高效地收集、聚合和移動(dòng)大量來(lái)自不同來(lái)源的日志數(shù)據(jù)到一個(gè)集中的數(shù)據(jù)存儲(chǔ)區(qū)??梢酝ㄟ^(guò)運(yùn)行“flume-ng -h”了解上述命令各選項(xiàng)的含義。

4. 日志導(dǎo)入到HDFS后,查看HDFS目錄下某個(gè)文件的前幾條內(nèi)容:

#查看HDFS目錄內(nèi)容的命令
hdfs dfs -ls /flume/20220706

HDFS目錄內(nèi)容部分如圖:

hadoop實(shí)驗(yàn),Hadoop大數(shù)據(jù)技術(shù),hadoop,大數(shù)據(jù),網(wǎng)站訪問(wèn)日志采集、處理及分析

#查看HDFS目錄下某文件的前幾行內(nèi)容的命令
hdfs dfs -cat /flume/20220706/FlumeData.1657070180143 | head -n 3

查看HDFS目錄下某文件的前三行內(nèi)容如圖:

hadoop實(shí)驗(yàn),Hadoop大數(shù)據(jù)技術(shù),hadoop,大數(shù)據(jù),網(wǎng)站訪問(wèn)日志采集、處理及分析

日志數(shù)據(jù)預(yù)處理

日志文件導(dǎo)入HDFS之后,為了方便Hive加載和分析數(shù)據(jù),需要進(jìn)一步對(duì)日志文件進(jìn)行預(yù)處理,產(chǎn)生格式整齊的數(shù)據(jù)文件。

原日志示例如圖:hadoop實(shí)驗(yàn),Hadoop大數(shù)據(jù)技術(shù),hadoop,大數(shù)據(jù),網(wǎng)站訪問(wèn)日志采集、處理及分析
這是典型的Apache服務(wù)器軟件的日志格式。每一行記錄用戶對(duì)Web服務(wù)器的一次訪問(wèn)。一條記錄有七個(gè)欄位,各欄位之間使用空格字符分隔。各欄位的含義如下:

  • 遠(yuǎn)程主機(jī)IP:該欄是請(qǐng)求的請(qǐng)求方IP地址。其示例值為:131.235.141.48。
  • E-mail:該欄現(xiàn)在已經(jīng)棄用,其值恒為“-”。
  • 登錄名:該欄現(xiàn)在已經(jīng)棄用,其值恒為“-”。
  • 請(qǐng)求時(shí)間:該欄是接收到請(qǐng)求的時(shí)間。時(shí)間信息用方括號(hào)包圍,而且采用所謂的 “公共日志格式” 或 “標(biāo)準(zhǔn)英文格式” 。時(shí)間信息最后的 “-0600” 表示服務(wù)器所處時(shí)區(qū)位于UTC之前的6小時(shí)。
  • HTTP請(qǐng)求信息:該欄是典型的 ”METHOD RESOURCE PROTOCOL” ,即 ”方法 資源 協(xié)議”。METHOD是一般瀏覽器通過(guò)GET或POST方法來(lái)傳輸表單信息,RESOURCE是指瀏覽者向服務(wù)器請(qǐng)求的文檔地址,即URL。PROTOCOL通常是HTTP,后面再加上版本號(hào)。
  • 狀態(tài)代碼:該欄是請(qǐng)求信息的狀態(tài)。一般地說(shuō),以2開(kāi)頭的狀態(tài)代碼表示成功,以3開(kāi)頭的狀態(tài)代碼表示由于各種不同的原因用戶請(qǐng)求被重定向到了其他位置,以4開(kāi)頭的狀態(tài)代碼表示客戶端存在某種錯(cuò)誤,以5開(kāi)頭的狀態(tài)代碼表示服務(wù)器遇到了某個(gè)錯(cuò)誤。
  • 發(fā)送字節(jié)數(shù):該欄是發(fā)送給客戶端的總字節(jié)數(shù)。通過(guò)檢查該數(shù)值是否和實(shí)際文件的大小相同,可以知道這次傳輸是否被打斷。把日志記錄中的這些值加起來(lái)就可以得知服務(wù)器在一天、一周或者一月內(nèi)發(fā)送了多少數(shù)據(jù)。其示例值為:2273。

日志處理后示例如圖:hadoop實(shí)驗(yàn),Hadoop大數(shù)據(jù)技術(shù),hadoop,大數(shù)據(jù),網(wǎng)站訪問(wèn)日志采集、處理及分析
作出的處理如下:

  • 丟棄第2欄和第3欄
  • 第5欄—HTTP請(qǐng)求信息拆分為三個(gè)字段,分別表示:方法、資源、協(xié)議
  • 將文件轉(zhuǎn)換為csv格式,即每個(gè)字段之間使用英文逗號(hào)分隔

其中輸入是Flume導(dǎo)入到HDFS的目錄,輸出結(jié)果存放于HDFS的另外一個(gè)目錄。

1.了解到日志數(shù)據(jù)需要如何處理后,使用MapReduce進(jìn)行處理,只需map即可,代碼如下:

#路徑/home/ubuntu/map.py
import sys
import csv

with open("Output.csv",'w',encoding='utf-8',newline="") as file:
    for line in sys.stdin:
        if line[0] != '':
            line = line.strip()
            line = line.replace('- - ', '').replace('[', '').replace(']', '').replace('"', '').replace('"', '')
            line = line.replace(' ', ',')
            line = line.replace(',-', ' -')
            print(line)
            file.write(line)
            file.write('\n')

2.然后使用Hadoop-streaming運(yùn)行MapReduce的命令,代碼如下:

$HADOOP_HOME/bin/hadoop jar \
$HADOOP_HOME/share/hadoop/tools/lib/hadoop-streaming-2.7.3.jar \
-files "/home/ubuntu/map.py" \
-input /flume/20220706/* \
-output /20220706/out001 \
-mapper "python3 map.py"

成功執(zhí)行MapReduce結(jié)果如圖:

hadoop實(shí)驗(yàn),Hadoop大數(shù)據(jù)技術(shù),hadoop,大數(shù)據(jù),網(wǎng)站訪問(wèn)日志采集、處理及分析
hadoop實(shí)驗(yàn),Hadoop大數(shù)據(jù)技術(shù),hadoop,大數(shù)據(jù),網(wǎng)站訪問(wèn)日志采集、處理及分析

數(shù)據(jù)處理后部分如圖:

#查看該目錄下前五行內(nèi)容
hdfs dfs -cat /20220706/out001/* | tail -n 5

hadoop實(shí)驗(yàn),Hadoop大數(shù)據(jù)技術(shù),hadoop,大數(shù)據(jù),網(wǎng)站訪問(wèn)日志采集、處理及分析

日志數(shù)據(jù)分析與統(tǒng)計(jì)

日志數(shù)據(jù)預(yù)處理后,使用Hive為HDFS上的csv文件建表并使用HQL分析問(wèn)題。

Apache Hive是一種建立在Hadoop文件系統(tǒng)上的數(shù)據(jù)倉(cāng)庫(kù)架構(gòu),并對(duì)存儲(chǔ)在HDFS中的數(shù)據(jù)進(jìn)行分析和管理。Hive通過(guò)一種類似SQL的查詢語(yǔ)言(稱為HiveSQL,簡(jiǎn)稱HQL)分析與管理數(shù)據(jù)。

#首先,進(jìn)入Hive操作
hive
#然后,創(chuàng)logdata表對(duì)應(yīng)日志數(shù)據(jù)處理后的字段
create table if not exists logdata(ip string,request_time string,method string,url string,state int,num int)row format delimited fields terminated by',';
#再將處理后輸出的數(shù)據(jù)導(dǎo)入到logdata表
load data inpath '/20220706/out001/part-00000' into table logdata;

最后成功執(zhí)行結(jié)果如圖:

hadoop實(shí)驗(yàn),Hadoop大數(shù)據(jù)技術(shù),hadoop,大數(shù)據(jù),網(wǎng)站訪問(wèn)日志采集、處理及分析

1.IP地址(域名) 訪問(wèn)次數(shù)最多

select ip from(select ip,rank()over(order by sum desc)as rank from(select ip,COUNT(*)as sum from logdata group by ip order by sum desc)a)b where b.rank=1;

結(jié)果如圖:

hadoop實(shí)驗(yàn),Hadoop大數(shù)據(jù)技術(shù),hadoop,大數(shù)據(jù),網(wǎng)站訪問(wèn)日志采集、處理及分析

2.IP地址(域名) 產(chǎn)生的流量最大

select a.ip from(select distinct b.ip,b.newtable from(select ip,sum(num) over(partition by ip)newtable from logdata)b order by b.newtable desc)a limit 1;

結(jié)果如圖:

hadoop實(shí)驗(yàn),Hadoop大數(shù)據(jù)技術(shù),hadoop,大數(shù)據(jù),網(wǎng)站訪問(wèn)日志采集、處理及分析

3.產(chǎn)生流量最大的前10% IP地址(域名)

select a.ip from(select *,ntile(10) over(order by b.newtable desc) d from(select distinct c.ip,c.newtable from(select ip,sum(num) over(partition by ip)newtable from logdata)c)b)a;

結(jié)果如圖:

hadoop實(shí)驗(yàn),Hadoop大數(shù)據(jù)技術(shù),hadoop,大數(shù)據(jù),網(wǎng)站訪問(wèn)日志采集、處理及分析

4.統(tǒng)計(jì)每個(gè)月的流量

select distinct a.month,a.month_total from(select substr(request_time,4,8)as month,sum(num) over(partition by substr(request_time,4,8))month_total from logdata)a where a.month_total is not NULL;

結(jié)果如圖:

hadoop實(shí)驗(yàn),Hadoop大數(shù)據(jù)技術(shù),hadoop,大數(shù)據(jù),網(wǎng)站訪問(wèn)日志采集、處理及分析

5.統(tǒng)計(jì)每個(gè)月的流量 month_total 、當(dāng)年的總流量 year_total及每月流量占比 ( month_total /year_total )

select distinct year,mon,year_total,month_total,month_total/year_total from(select*,sum(num)over(partition by mon)month_total from(select*,substr(request_time,4,3)as mon from(select*,sum(num)over(partition by year)year_total from(select*,substr(request_time,8,4)as year from logdata)a)b)c)d where year_total is not NULL;

結(jié)果如圖:

hadoop實(shí)驗(yàn),Hadoop大數(shù)據(jù)技術(shù),hadoop,大數(shù)據(jù),網(wǎng)站訪問(wèn)日志采集、處理及分析

6.日志記錄的時(shí)期,一共有多少錯(cuò)誤的請(qǐng)求?(響應(yīng)碼以4或5開(kāi)頭)

select count(state) from logdata where state like '4%' or state like '5%';

結(jié)果如圖:

hadoop實(shí)驗(yàn),Hadoop大數(shù)據(jù)技術(shù),hadoop,大數(shù)據(jù),網(wǎng)站訪問(wèn)日志采集、處理及分析

7.
查詢每個(gè)月中錯(cuò)誤請(qǐng)求的次數(shù)

select distinct a.month,a.erro_total from(select substr(request_time,4,8)as month,count(state) over(partition by substr(request_time,4,8))erro_total from logdata where state like '4%' or state like '5%')a;

結(jié)果如圖:

hadoop實(shí)驗(yàn),Hadoop大數(shù)據(jù)技術(shù),hadoop,大數(shù)據(jù),網(wǎng)站訪問(wèn)日志采集、處理及分析

查詢每個(gè)月中請(qǐng)求的總次數(shù)

select distinct b.month,b.total from(select substr(request_time,4,8)as month,count(state) over(partition by substr(request_time,4,8))total from logdata)b where total != 0;

結(jié)果如圖:

hadoop實(shí)驗(yàn),Hadoop大數(shù)據(jù)技術(shù),hadoop,大數(shù)據(jù),網(wǎng)站訪問(wèn)日志采集、處理及分析

嵌套獲取每個(gè)月錯(cuò)誤請(qǐng)求占當(dāng)月總請(qǐng)求數(shù)量的占比

select aa.month,aa.erro_total/bb.total from(select distinct a.month,a.erro_total from(select substr(request_time,4,8)as month,count(state) over(partition by substr(request_time,4,8))erro_total from logdata where state like '4%' or state like '5%')a)aa ,(select distinct b.month,b.total from(select substr(request_time,4,8)as month,count(state) over(partition by substr(request_time,4,8))total from logdata)b where total != 0)bb where aa.month==bb.month;

結(jié)果以科學(xué)計(jì)算法的方式表示如圖:

hadoop實(shí)驗(yàn),Hadoop大數(shù)據(jù)技術(shù),hadoop,大數(shù)據(jù),網(wǎng)站訪問(wèn)日志采集、處理及分析

日志數(shù)據(jù)可視化

將上一步5的分析結(jié)果保存到本地文件并進(jìn)行數(shù)據(jù)可視化。

數(shù)據(jù)可視化的功能是幫助人們更好地分析數(shù)據(jù),具有較高的識(shí)別效率,有效明確地傳遞信息,可以強(qiáng)化認(rèn)知理解,能夠幫助人們提高理解與處理數(shù)據(jù)的效率

1.將第五題查詢結(jié)果保存到本地,代碼如下:

insert overwrite local directory '/home/ubuntu/20220706_ComExperiment/' row format delimited fields terminated by ',' select b.month,b.month_total/b.year_total from(select distinct a.month_total,a.year_total,substr(a.request_time,4,8)as month from(select *,sum(num) over(partition by substr(request_time,4,8))month_total,sum(num) over(partition by substr(request_time,8,4))year_total from logdata)a)b where year_total is not NULL;

成功執(zhí)行結(jié)果如圖:

hadoop實(shí)驗(yàn),Hadoop大數(shù)據(jù)技術(shù),hadoop,大數(shù)據(jù),網(wǎng)站訪問(wèn)日志采集、處理及分析

查看文件如圖:

hadoop實(shí)驗(yàn),Hadoop大數(shù)據(jù)技術(shù),hadoop,大數(shù)據(jù),網(wǎng)站訪問(wèn)日志采集、處理及分析

查看內(nèi)容如圖:

hadoop實(shí)驗(yàn),Hadoop大數(shù)據(jù)技術(shù),hadoop,大數(shù)據(jù),網(wǎng)站訪問(wèn)日志采集、處理及分析

2.用分頁(yè)組件Tab實(shí)現(xiàn)餅圖與折線圖,代碼如下:

from pyecharts import options as opts
from pyecharts.charts import Line, Tab, Pie
import pandas as pd

data = pd.read_csv('/home/ubuntu/20220706_ComExperiment/000000_0', header=None)
data.columns = ['year_month', 'rate']
year_month = data['year_month'].tolist()
rate = data['rate'].tolist()

def line_markpoint() -> Line:
    c = (
        Line()
        .add_xaxis(year_month)
        .add_yaxis(
            "year_month",
            rate,
            label_opts=opts.LabelOpts(is_show=False),
            markpoint_opts=opts.MarkPointOpts(data=[opts.MarkPointItem(type_="min")]),
        )
        .set_global_opts(title_opts=opts.TitleOpts(title="Line-MarkPoint圖"))
    )
    return c

def pie_rosetype() -> Pie:
    v = year_month
    c = (
        Pie()
        .add(
            "year_month",
            [list(z) for z in zip(v, rate)],
            radius=["30%", "75%"],
            center=["25%", "50%"],
            rosetype="radius",
            label_opts=opts.LabelOpts(is_show=False),
        )
        .set_global_opts(title_opts=opts.TitleOpts(title="Pie-玫瑰圖"))
    )
    return c

tab = Tab()
tab.add(line_markpoint(), "line_markpoint")
tab.add(pie_rosetype(), "pie_rosetype")
tab.render("/home/ubuntu//tab_base.html")

結(jié)果如圖:

hadoop實(shí)驗(yàn),Hadoop大數(shù)據(jù)技術(shù),hadoop,大數(shù)據(jù),網(wǎng)站訪問(wèn)日志采集、處理及分析

hadoop實(shí)驗(yàn),Hadoop大數(shù)據(jù)技術(shù),hadoop,大數(shù)據(jù),網(wǎng)站訪問(wèn)日志采集、處理及分析文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-779816.html

到了這里,關(guān)于猿創(chuàng)征文|Hadoop大數(shù)據(jù)技術(shù)綜合實(shí)驗(yàn)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 猿創(chuàng)征文|我的技術(shù)成長(zhǎng)之路&&C++

    猿創(chuàng)征文|我的技術(shù)成長(zhǎng)之路&&C++

    ?作者簡(jiǎn)介:C/C++領(lǐng)域新星創(chuàng)作者,CSDN內(nèi)容合伙人,新晉萬(wàn)粉博主,大三學(xué)生 這個(gè)世界熙熙攘攘,少有人給靈魂拋光 ??讀者朋友們大家好,借著本次猿創(chuàng)征文活動(dòng)我將分享一下自己的C++技術(shù)的成長(zhǎng)之路。身為計(jì)科專業(yè)的學(xué)生,我接觸的第一門(mén)編程語(yǔ)言是C語(yǔ)言,打印的第一

    2024年02月06日
    瀏覽(20)
  • 猿創(chuàng)征文|那些年我們追過(guò)的那些技術(shù)

    猿創(chuàng)征文|那些年我們追過(guò)的那些技術(shù)

    ? ? ? ?11年正式進(jìn)入IT行業(yè),成為一名程序員。那時(shí)候的技術(shù)圈還停留在語(yǔ)言之爭(zhēng)上,那時(shí)候爭(zhēng)論的是到底誰(shuí)是世界上最好的編程語(yǔ)言,php說(shuō)過(guò)自己是世界上最好的語(yǔ)言,C#說(shuō)過(guò)自己是世界上最好的語(yǔ)言,那時(shí)候Python這個(gè)小兄弟還沒(méi)來(lái)到Top3,彼時(shí)JAVA長(zhǎng)期位于榜首。隨著技術(shù)的

    2023年04月24日
    瀏覽(24)
  • 云計(jì)算技術(shù) 實(shí)驗(yàn)三 安裝Hadoop系統(tǒng)并熟悉hadoop命令

    云計(jì)算技術(shù) 實(shí)驗(yàn)三 安裝Hadoop系統(tǒng)并熟悉hadoop命令

    參考資料為: 教材代碼-林子雨編著《大數(shù)據(jù)基礎(chǔ)編程、實(shí)驗(yàn)和案例教程(第2版)》教材所有章節(jié)代碼_廈大數(shù)據(jù)庫(kù)實(shí)驗(yàn)室博客 1 . 實(shí)驗(yàn)學(xué)時(shí) 4學(xué)時(shí) 2 . 實(shí)驗(yàn)?zāi)康?熟悉Hadoop系統(tǒng)的安裝 掌握Hadoop系統(tǒng)的兩種安裝方式 掌握Hadoop系統(tǒng)的基本命令 3 . 實(shí)驗(yàn)內(nèi)容 安裝虛擬機(jī)和Linux環(huán)境。

    2024年02月07日
    瀏覽(26)
  • 【Hadoop綜合實(shí)踐】手機(jī)賣場(chǎng)大數(shù)據(jù)綜合項(xiàng)目分析

    【Hadoop綜合實(shí)踐】手機(jī)賣場(chǎng)大數(shù)據(jù)綜合項(xiàng)目分析

    ?? 本文章實(shí)現(xiàn)了基于MapReduce的手機(jī)瀏覽日志分析 ?? 文章簡(jiǎn)介:主要包含了數(shù)據(jù)生成部分,數(shù)據(jù)處理部分,數(shù)據(jù)存儲(chǔ)部分與數(shù)據(jù)可視化部分 ?? 【本文僅供參考!!非唯一答案】其中需求實(shí)現(xiàn)的方式有多種,提供的代碼并非唯一寫(xiě)法,選擇適合的方式即可。 手機(jī)日志分析需

    2024年02月08日
    瀏覽(25)
  • 猿創(chuàng)征文| redis基本數(shù)據(jù)類型

    猿創(chuàng)征文| redis基本數(shù)據(jù)類型

    ??個(gè)人主頁(yè):不斷前進(jìn)的皮卡丘 ??博客描述:夢(mèng)想也許遙不可及,但重要的是追夢(mèng)的過(guò)程,用博客記錄自己的成長(zhǎng),記錄自己一步一步向上攀登的印記 ??個(gè)人專欄:微服務(wù)專欄 ??redis常見(jiàn)的操作命令:http://www.redis.cn/commands.html 命令 功能 keys * 查看當(dāng)前庫(kù)的所有key exists key 判斷

    2023年04月08日
    瀏覽(19)
  • 大數(shù)據(jù)Hadoop教程-學(xué)習(xí)筆記06【Hadoop生態(tài)綜合案例:陌陌聊天數(shù)據(jù)分析】

    大數(shù)據(jù)Hadoop教程-學(xué)習(xí)筆記06【Hadoop生態(tài)綜合案例:陌陌聊天數(shù)據(jù)分析】

    視頻教程:?jiǎn)袅▎袅ňW(wǎng)站:黑馬大數(shù)據(jù)Hadoop入門(mén)視頻教程,總時(shí)長(zhǎng):14:22:04 教程資源:https://pan.baidu.com/s/1WYgyI3KgbzKzFD639lA-_g,提取碼:6666 【P001-P017】大數(shù)據(jù)Hadoop教程-學(xué)習(xí)筆記01【大數(shù)據(jù)導(dǎo)論與Linux基礎(chǔ)】【17p】 【P018-P037】大數(shù)據(jù)Hadoop教程-學(xué)習(xí)筆記02【Apache Hadoop、HDFS】【20p】

    2024年02月02日
    瀏覽(26)
  • 猿創(chuàng)征文|“云“創(chuàng)新展望:數(shù)據(jù)之浩瀚

    猿創(chuàng)征文|“云“創(chuàng)新展望:數(shù)據(jù)之浩瀚

    ??wei_shuo的個(gè)人主頁(yè) ??wei_shuo的學(xué)習(xí)社區(qū) ??Hello World ! AWS亞馬遜云科技提供全球覆蓋廣泛、服務(wù)深入的云平臺(tái),全球數(shù)據(jù)中心提供超過(guò) 200 項(xiàng)功能齊全的服務(wù) 連續(xù) 11 年被 Gartner 評(píng)為\\\"全球云計(jì)算領(lǐng)導(dǎo)者\(yùn)\\" ;2021 年全新 Gartner 魔力象限中被評(píng)為\\\"云基礎(chǔ)設(shè)施與平臺(tái)服務(wù)(Iaas Pa

    2023年04月24日
    瀏覽(24)
  • 猿創(chuàng)征文|大數(shù)據(jù)開(kāi)發(fā)必備的數(shù)據(jù)采集工具匯總

    猿創(chuàng)征文|大數(shù)據(jù)開(kāi)發(fā)必備的數(shù)據(jù)采集工具匯總

    隨著大數(shù)據(jù)近幾年的發(fā)展,已經(jīng)在國(guó)內(nèi)外的開(kāi)發(fā)市場(chǎng)積累出一大批大數(shù)據(jù)開(kāi)發(fā)的技術(shù)型人才,不論是批處理還是流處理各大公司都研究出一套專門(mén)解決自身公司業(yè)務(wù)的大數(shù)據(jù)解決方案。它們是市面上大數(shù)據(jù)組件的融合碰撞產(chǎn)生的適合自身的。 在數(shù)據(jù)處理的最前端一定是數(shù)據(jù)的

    2024年02月01日
    瀏覽(22)
  • 技術(shù)之外(02)猿創(chuàng)征文|寶藏工具篇|數(shù)字芯片設(shè)計(jì),嵌入式開(kāi)發(fā),人工智能|沒(méi)我可以,沒(méi)你不行

    技術(shù)之外(02)猿創(chuàng)征文|寶藏工具篇|數(shù)字芯片設(shè)計(jì),嵌入式開(kāi)發(fā),人工智能|沒(méi)我可以,沒(méi)你不行

    新芯設(shè)計(jì):專注,積累,探索,挑戰(zhàn) ??由于工作的繁忙,已經(jīng)有較長(zhǎng)的時(shí)間沒(méi)有發(fā)文了。偶然之間,在回復(fù)讀者來(lái)信的時(shí)候,關(guān)注到了 CSDN 創(chuàng)作活動(dòng)中的「 猿創(chuàng)征文 」 第四季 | 2022 年我的開(kāi)發(fā)者工具 。這時(shí)才晃過(guò)神來(lái),2022 年,已經(jīng)跨入了倒數(shù)的一個(gè)四分之一,歲月的印

    2024年01月23日
    瀏覽(62)
  • 猿創(chuàng)征文|【Python數(shù)據(jù)科學(xué)快速入門(mén)系列 | 05】常用科學(xué)計(jì)算函數(shù)

    猿創(chuàng)征文|【Python數(shù)據(jù)科學(xué)快速入門(mén)系列 | 05】常用科學(xué)計(jì)算函數(shù)

    這是機(jī)器未來(lái)的第44篇文章 原文首發(fā)地址:https://blog.csdn.net/RobotFutures/article/details/126615267 本文以鳶尾花的數(shù)據(jù)預(yù)處理為例,描述了科學(xué)計(jì)算在機(jī)器學(xué)習(xí)使用的示例。 以鳶尾花數(shù)據(jù)集為例。 鳶尾花數(shù)據(jù)集有4個(gè)特征,1個(gè)標(biāo)簽,特征為sepal_length,sepal_width,petal_length,petal_width,分別

    2023年04月09日
    瀏覽(22)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包