国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<strike id="rqguc"></strike>

<thead id="rqguc"></thead>

<span id="rqguc"></span>

educoder大數(shù)據(jù)作業(yè)答案

2年前作者：檀似錦河燦爛分類：Toy博客閱讀(27)違法舉報

這篇具有很好參考價值的文章主要介紹了educoder大數(shù)據(jù)作業(yè)答案。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

第1關(guān)：第一題

任務(wù)描述
編程要求
測試說明

任務(wù)描述

本關(guān)任務(wù)：根據(jù)編程要求，完成任務(wù)。

編程要求

打開右側(cè)代碼文件窗口，在 Begin 至 End 區(qū)域補(bǔ)充代碼，完成任務(wù)。

在本地目錄 /data/bigfiles 中有兩個文件 a.txt 與 b.txt，現(xiàn)在需要對這兩個文件進(jìn)行合并，并剔除其中重復(fù)的內(nèi)容，將合并結(jié)果存儲到 /root/result/ 目錄下。

下面是 a.txt 與 b.txt存儲的內(nèi)容示例：

20170101    x20170102    y20170103    x20170104    y20170105    z20170106    z......

合并結(jié)果按首列升序進(jìn)行排列。

測試說明

平臺將對你編寫的代碼進(jìn)行評測，如果與預(yù)期結(jié)果一致，則通關(guān)，否則測試失敗。

代碼文件：

from pyspark import SparkContext, SparkConf

################ Begin ################

# 創(chuàng)建SparkContext對象
sc = SparkContext('local','remdup')

# 加載兩個文件
lines1 = sc.textFile("file:///data/bigfiles/a.txt")
lines2 = sc.textFile("file:///data/bigfiles/b.txt")

# 合并兩個文件的內(nèi)容
lines = lines1.union(lines2)

# 去重操作
distinct_lines = lines.distinct()

# 排序操作
res = distinct_lines.sortBy(lambda x:x)

# 保存結(jié)果
res.repartition(1).saveAsTextFile("file:///root/result")

# 關(guān)閉SparkContext對象
sc.stop()


################ End ################

第2關(guān)：第二題

任務(wù)描述
編程要求
測試說明

任務(wù)描述

本關(guān)任務(wù)：根據(jù)編程要求，完成任務(wù)。

編程要求

打開右側(cè)代碼文件窗口，在 Begin 至 End 區(qū)域補(bǔ)充代碼，完成任務(wù)。

在本地目錄 /data/bigfiles 中有三個文件 Algorithm.txt、Database.txt 和 Python.txt。其中每行存儲的內(nèi)容由兩個字段組成，第一個是學(xué)生名字，第二個是學(xué)生的成績。

請你讀取這三個文件的內(nèi)容，計算各個學(xué)生的平均成績（保留兩位小數(shù)），將輸出結(jié)果存儲到 /root/result2/ 目錄下。

下面是上述文件一個樣例，供參考。

小明 92小紅 87小新 82小麗 90......

輸出示例：

('小紅'，82.88)('小明'，81.23)......

輸出結(jié)果按平均分成績降序進(jìn)行排列。

測試說明

平臺將對你編寫的代碼進(jìn)行評測，如果與預(yù)期結(jié)果一致，則通關(guān)，否則測試失敗。

代碼文件：

from pyspark import SparkContext

################ Begin ################

# 創(chuàng)建SparkContext對象
sc = SparkContext('local', 'average_score')

# 加載三個文件
file_path_algorithm = "/data/bigfiles/Algorithm.txt"
file_path_database = "/data/bigfiles/Database.txt"
file_path_python = "/data/bigfiles/Python.txt"

data_algorithm = sc.textFile(file_path_algorithm)
data_database = sc.textFile(file_path_database)
data_python = sc.textFile(file_path_python)

# 合并三個文件的內(nèi)容
merged_data = data_algorithm.union(data_database).union(data_python)

# 完成數(shù)據(jù)聚合
student_scores = merged_data.map(lambda line: (line.split()[0], float(line.split()[1])))

# 求平均分并排序
average_scores = student_scores.groupByKey().mapValues(lambda scores: round(sum(scores) / len(scores), 2))
sorted_scores = average_scores.sortBy(lambda x: x[1], ascending=False)

# 保存結(jié)果
result_path = "/root/result2/"
sorted_scores.saveAsTextFile(result_path)

# 關(guān)閉SparkContext對象
sc.stop()

################ End ################

第二關(guān)

第2關(guān)：第一題

任務(wù)描述

本關(guān)任務(wù)：根據(jù)編程要求，完成任務(wù)。

編程要求

打開右側(cè)代碼文件窗口，在 Begin 至 End 區(qū)域補(bǔ)充代碼，完成任務(wù)。

在 pyspark 中讀取 Linux 系統(tǒng)本地文件 /data/bigfiles/data.txt，該數(shù)據(jù)集包含了某大學(xué)計算機(jī)系的成績，數(shù)據(jù)格式如下所示：

Tom,DataBase,80Tom,Algorithm,50Tom,DataStructure,60Jim,DataBase,90Jim,Algorithm,60Jim,DataStructure,80……

第一列為學(xué)生姓名，第二列為課程名稱，第三列為課程成績。

統(tǒng)計該系總共有多少名學(xué)生，直接打印輸出統(tǒng)計的結(jié)果。

輸出示例如下：

該系共有學(xué)生：n 人

測試說明

平臺將對你編寫的代碼進(jìn)行評測，如果與預(yù)期結(jié)果一致，則通關(guān)，否則測試失敗。

from pyspark import SparkContext

###############Begin##############
# 創(chuàng)建SparkContext對象
sc = SparkContext("local", "Student Count")
# 讀取文本文件
lines = sc.textFile("file:///data/bigfiles/data.txt")
# 統(tǒng)計學(xué)生人數(shù)
arr = lines.map(lambda x:x.split(",")).map(lambda x: x[0])
distinct_res = arr.distinct()
res=distinct_res.count() 
# 打印結(jié)果
print("\n該系共有學(xué)生：%d 人"%res)
# 關(guān)閉SparkContext對象
sc.stop()
###############End################

第2關(guān)：第二題

任務(wù)描述

本關(guān)任務(wù)：根據(jù)編程要求，完成任務(wù)。

編程要求

打開右側(cè)代碼文件窗口，在 Begin 至 End 區(qū)域補(bǔ)充代碼，完成任務(wù)。

在 pyspark 中讀取 Linux 系統(tǒng)本地文件 /data/bigfiles/data.txt，該數(shù)據(jù)集包含了某大學(xué)計算機(jī)系的成績，數(shù)據(jù)格式如下所示：

Tom,DataBase,80Tom,Algorithm,50Tom,DataStructure,60Jim,DataBase,90Jim,Algorithm,60Jim,DataStructure,80……

第一列為學(xué)生姓名，第二列為課程名稱，第三列為課程成績。

統(tǒng)計該系共開設(shè)了多少門課程，直接打印輸出統(tǒng)計的結(jié)果。

輸出示例如下：

該系共有 n 門課程

測試說明

平臺將對你編寫的代碼進(jìn)行評測，如果與預(yù)期結(jié)果一致，則通關(guān)，否則測試失敗。

from pyspark import SparkContext

################ Begin ################

# 創(chuàng)建SparkContext對象
sc = SparkContext("local", "Course Count")

# 讀取文本文件
lines = sc.textFile("file:///data/bigfiles/data.txt")

# 統(tǒng)計課程數(shù)量
course_count = lines.map(lambda x: x.split(",")[1]).distinct().count()

# 打印結(jié)果
print("\n該系共有 %d 門課程" % course_count)

# 關(guān)閉SparkContext對象
sc.stop()

################ End ################

第2關(guān)：第三題

任務(wù)描述

本關(guān)任務(wù)：根據(jù)編程要求，完成任務(wù)。

編程要求

打開右側(cè)代碼文件窗口，在 Begin 至 End 區(qū)域補(bǔ)充代碼，完成任務(wù)。

在 pyspark 中讀取 Linux 系統(tǒng)本地文件 /data/bigfiles/data.txt，該數(shù)據(jù)集包含了某大學(xué)計算機(jī)系的成績，數(shù)據(jù)格式如下所示：

Tom,DataBase,80Tom,Algorithm,50Tom,DataStructure,60Jim,DataBase,90Jim,Algorithm,60Jim,DataStructure,80……

第一列為學(xué)生姓名，第二列為課程名稱，第三列為課程成績。

計算 Tom 同學(xué)的總成績平均分是多少（保留一位小數(shù)），直接打印輸出計算的結(jié)果。

輸出示例如下：

Tom 同學(xué)的總成績平均分為：xx.x 分

測試說明

平臺將對你編寫的代碼進(jìn)行評測，如果與預(yù)期結(jié)果一致，則通關(guān)，否則測試失敗。

from pyspark import SparkContext

################ Begin ################

# 創(chuàng)建SparkContext對象
sc = SparkContext("local", "Tom Average Score")

# 讀取文本文件
lines = sc.textFile("file:///data/bigfiles/data.txt")

# 計算 Tom 同學(xué)的平均分
tom_scores = lines.filter(lambda x: x.startswith("Tom")).map(lambda x: float(x.split(",")[2]))
average_score = tom_scores.mean()

# 打印結(jié)果
print("\nTom 同學(xué)的總成績平均分為：%.1f 分" % average_score)

# 關(guān)閉SparkContext對象
sc.stop()

################ End ################

第2關(guān)：第四題

任務(wù)描述

本關(guān)任務(wù)：根據(jù)編程要求，完成任務(wù)。

編程要求

打開右側(cè)代碼文件窗口，在 Begin 至 End 區(qū)域補(bǔ)充代碼，完成任務(wù)。

在 pyspark 中讀取 Linux 系統(tǒng)本地文件 /data/bigfiles/data.txt，該數(shù)據(jù)集包含了某大學(xué)計算機(jī)系的成績，數(shù)據(jù)格式如下所示：

Tom,DataBase,80Tom,Algorithm,50Tom,DataStructure,60Jim,DataBase,90Jim,Algorithm,60Jim,DataStructure,80……

第一列為學(xué)生姓名，第二列為課程名稱，第三列為課程成績。

求每名同學(xué)選修的課程門數(shù)，直接打印輸出計算的結(jié)果。

輸出示例如下：

('Lewis', 4)('Mike', 3)('Walter', 4)('Conrad', 2)('Borg', 4)……

測試說明

平臺將對你編寫的代碼進(jìn)行評測，如果與預(yù)期結(jié)果一致，則通關(guān)，否則測試失敗。

from pyspark import SparkContext

################ Begin ################

# 創(chuàng)建SparkContext對象
sc = SparkContext("local", "Courses Count")


# 讀取文本文件

lines = sc.textFile("file:///data/bigfiles/data.txt")

# 統(tǒng)計各個同學(xué)選修課程數(shù)量

res = lines.map(lambda x:x.split(",")).map(lambda x:(x[0],1)) #學(xué)生每門課程都對應(yīng)
each_res = res.reduceByKey(lambda x,y: x+y) #按學(xué)生姓名獲取每個學(xué)生的選課總數(shù)

# 打印結(jié)果

each_res.foreach(print)

# 關(guān)閉SparkContext對象

sc.stop()

################ End ################

第2關(guān)：第五題

任務(wù)描述

本關(guān)任務(wù)：根據(jù)編程要求，完成任務(wù)。

編程要求

打開右側(cè)代碼文件窗口，在 Begin 至 End 區(qū)域補(bǔ)充代碼，完成任務(wù)。

在 pyspark 中讀取 Linux 系統(tǒng)本地文件 /data/bigfiles/data.txt，該數(shù)據(jù)集包含了某大學(xué)計算機(jī)系的成績，數(shù)據(jù)格式如下所示：

Tom,DataBase,80Tom,Algorithm,50Tom,DataStructure,60Jim,DataBase,90Jim,Algorithm,60Jim,DataStructure,80……

第一列為學(xué)生姓名，第二列為課程名稱，第三列為課程成績。

統(tǒng)計該系 DataBase 課程共有多少人選修，直接打印輸出計算的結(jié)果。

輸出示例如下：

選修 DataBase 課程的同學(xué)共有 n 位

測試說明

平臺將對你編寫的代碼進(jìn)行評測，如果與預(yù)期結(jié)果一致，則通關(guān)，否則測試失敗。

from pyspark import SparkContext

################ Begin ################

# 創(chuàng)建SparkContext對象
sc = SparkContext("local", "DataBase Students Count")

# 讀取文本文件
lines = sc.textFile("file:///data/bigfiles/data.txt")

# 統(tǒng)計選修 DataBase 課程的人數(shù)
arr = lines.map(lambda x:x.split(",")).filter(lambda x:x[1]=="DataBase")
res = arr.count()

# 打印結(jié)果
print("\n選修 DataBase 課程的同學(xué)共有 %d 位" % res)

# 關(guān)閉SparkContext對象
sc.stop()

################ End ################

第2關(guān)：第六題

任務(wù)描述

本關(guān)任務(wù)：根據(jù)編程要求，完成任務(wù)。

編程要求

打開右側(cè)代碼文件窗口，在 Begin 至 End 區(qū)域補(bǔ)充代碼，完成任務(wù)。

在 pyspark 中讀取 Linux 系統(tǒng)本地文件 /data/bigfiles/data.txt，該數(shù)據(jù)集包含了某大學(xué)計算機(jī)系的成績，數(shù)據(jù)格式如下所示：

Tom,DataBase,80Tom,Algorithm,50Tom,DataStructure,60Jim,DataBase,90Jim,Algorithm,60Jim,DataStructure,80……

第一列為學(xué)生姓名，第二列為課程名稱，第三列為課程成績。

統(tǒng)計該系各門課程的平均分是多少（保留一位小數(shù)），直接打印輸出計算的結(jié)果。

輸出示例如下：

('ComputerNetwork', 51.9)('Software', 50.91)('DataBase', 50.54)......

測試說明

平臺將對你編寫的代碼進(jìn)行評測，如果與預(yù)期結(jié)果一致，則通關(guān)，否則測試失敗。

from pyspark import SparkContext

################ Begin ################

# 創(chuàng)建SparkContext對象
sc = SparkContext("local", "Courses Average")

# 讀取文本文件
lines = sc.textFile("file:///data/bigfiles/data.txt")

# 統(tǒng)計該系各門課程的平均分
res = lines.map(lambda x: x.split(",")).map(lambda x: (x[1], (int(x[2]), 1)))
temp = res.reduceByKey(lambda x, y: (x[0] + y[0], x[1] + y[1]))  # 按課程名聚合課程總分和選課人數(shù)
# 課程總分/選課人數(shù) = 平均分，保留一位小數(shù)
avg = temp.map(lambda x: (x[0], round(x[1][0] / x[1][1], 1)))

# 打印結(jié)果
avg.foreach(print)

# 關(guān)閉SparkContext對象
sc.stop()

################ End ################

第2關(guān)：第七題

任務(wù)描述

本關(guān)任務(wù)：根據(jù)編程要求，完成任務(wù)。

編程要求

打開右側(cè)代碼文件窗口，在 Begin 至 End 區(qū)域補(bǔ)充代碼，完成任務(wù)。

在 pyspark 中讀取 Linux 系統(tǒng)本地文件 /data/bigfiles/data.txt，該數(shù)據(jù)集包含了某大學(xué)計算機(jī)系的成績，數(shù)據(jù)格式如下所示：

Tom,DataBase,80Tom,Algorithm,50Tom,DataStructure,60Jim,DataBase,90Jim,Algorithm,60Jim,DataStructure,80……

第一列為學(xué)生姓名，第二列為課程名稱，第三列為課程成績。

使用累加器計算共有多少人選了 DataBase 這門課，直接打印輸出計算的結(jié)果。

輸出示例如下：

共有 n 名同學(xué)選修了 DataBase 課程

測試說明

平臺將對你編寫的代碼進(jìn)行評測，如果與預(yù)期結(jié)果一致，則通關(guān)，否則測試失敗。

from pyspark import SparkContext
from pyspark.accumulators import AccumulatorParam

################ Begin ################

# 創(chuàng)建SparkContext對象
sc = SparkContext("local", "DataBase Students Count")

# 創(chuàng)建累加器
data_base_students_count = sc.accumulator(0)

# 定義累加器參數(shù)
class MyAccumulatorParam(AccumulatorParam):
    def zero(self, value):
        return value

    def addInPlace(self, acc1, acc2):
        return acc1 + acc2

# 讀取文本文件
lines = sc.textFile("file:///data/bigfiles/data.txt")

# 使用累加器統(tǒng)計選修 DataBase 課程的人數(shù)
def count_data_base_students(line):
    global data_base_students_count
    if line.split(",")[1] == "DataBase":
        data_base_students_count += 1

# 使用 foreach 方法遍歷 RDD 并應(yīng)用累加器
lines.foreach(count_data_base_students)

# 打印結(jié)果
print("\n共有 %d 名同學(xué)選修了 DataBase 課程" % data_base_students_count.value)

# 關(guān)閉SparkContext對象
sc.stop()

################ End ################

如有侵權(quán)請聯(lián)系刪除文章來源地址http://www.zghlxwxcb.cn/news/detail-767885.html

到了這里，關(guān)于educoder大數(shù)據(jù)作業(yè)答案的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進(jìn)行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費用

JavaScript上部分--頭歌（educoder）實訓(xùn)作業(yè)題目及答案 JS簡介
? 目錄 JS簡介第1關(guān): JavaScript基礎(chǔ)入門第2關(guān): JavaScript 與 HTML 第3關(guān): JavaScript 變量 JS 數(shù)據(jù)類型第1關(guān): JavaScript 數(shù)據(jù)類型介紹第2關(guān): JavaScript 數(shù)據(jù)類型轉(zhuǎn)換 JS運(yùn)算符第1關(guān): 算術(shù)運(yùn)算符第2關(guān): 比較和邏輯運(yùn)算符第3關(guān): 條件和賦值運(yùn)算符第4關(guān): 運(yùn)算符的優(yōu)先級和結(jié)合性 JS對象第
2023年04月22日
瀏覽(212)
頭歌（educoder）實訓(xùn)作業(yè)題目及答案分享 ——1-4 Java入門 - 分支結(jié)構(gòu)
??個人簡介： ?作者簡介：大家好，我是Passenger.n?? ?支持一下：點贊??+收藏??+留言?? ?? 系列專欄：java基礎(chǔ)?? ??格言：花有重開日，人無再少年！?? 萬事開頭難，既然邁開了這一步，那就堅持走下去！這是我的第一篇博客，希望萌新看了有收獲，大佬看了給指
2024年02月06日
瀏覽(115)
頭歌（educoder）實訓(xùn)作業(yè)題目及答案分享 ——1-7 Java入門-分支與循環(huán)練習(xí)
??個人簡介： ?作者簡介：大家好，我是Passenger.n?? ?支持一下：點贊??+收藏??+留言?? ?? 系列專欄：java基礎(chǔ)?? ??格言：花有重開日，人無再少年！?? 萬事開頭難，既然邁開了這一步，那就堅持走下去！這是我的第一篇博客，希望萌新看了有收獲，大佬看了給指
2024年02月04日
瀏覽(101)
頭歌（educoder）實訓(xùn)作業(yè)題目及答案分享 ——1-3 Java入門 - 運(yùn)算符和表達(dá)式
??個人簡介： ?作者簡介：大家好，我是Passenger.n ?支持一下：點贊??+收藏??+留言?? ?? 系列專欄：java基礎(chǔ)?? ??格言：花有重開日，人無再少年！?? 萬事開頭難，既然邁開了這一步，那就堅持走下去！這是我新的一篇博客，希望萌新看了有收獲，大佬看了給指路??
2024年02月07日
瀏覽(295)
【Educoder作業(yè)】問題求解——網(wǎng)頁數(shù)據(jù)獲取
做完了有一種重復(fù)感，五道題題目難度太平穩(wěn)了，甚至后面的題還更簡單一些。都是一些重復(fù)且機(jī)械的操作。這五個題大題的思路是一模一樣的，我就放在一起說了。每個題有每個題的特點，但都可以概括一下。我們先打開 h t m l html h t m l 的文件，搜索 t a b l e table t a b l
2024年02月01日
瀏覽(16)
pycharm pyspark連接虛擬機(jī)的hive表讀取數(shù)據(jù)
給個demo示例：
2024年04月13日
瀏覽(41)
【Educoder作業(yè)】認(rèn)識數(shù)字音頻
T1 認(rèn)識數(shù)字音頻他這個問題在于， p r i n t print p r i n t 在格式化輸出的時候需要注意， % % % 是要求加括號的，不然會報錯。 T2 剪輯兒歌 m p 3 mp3 m p 3 文件可以像數(shù)組一樣，直接相加表示拼接，用中括號取值是以毫秒為單位裁剪。 T3 根據(jù)簡譜生成配樂首先，生成基礎(chǔ)音的過
2024年02月04日
瀏覽(46)
HNU-計算機(jī)系統(tǒng)-CSAPP作業(yè)答案
計科210X wolf 202108010XXX 第2章 2.61 解： (!~x) || (!x) || (!~(x|0x00ffffff)) || (!(x0x000000ff)) 或者： (!~x) || (!x) || (!~(x24)) || (!(x24)) 2.71 A. 實現(xiàn)的是邏輯位移，擴(kuò)展后前面全是0，不符合符號擴(kuò)展的要求 B. 2.87 格式A 格式B 位值位值 1 01110 001 -9/16 1 0110 0010 -9/16 0 10110 101 208 0 1110 1010 208 1 00111
2024年02月08日
瀏覽(21)
CDH6.3.2 的pyspark讀取excel表格數(shù)據(jù)寫入hive中的問題匯總
需求：內(nèi)網(wǎng)通過Excel文件將數(shù)據(jù)同步到外網(wǎng)的CDH服務(wù)器中，將CDH中的文件數(shù)據(jù)寫入hive中。 CDH版本為：6.3.2 spark版本為：2.4 python版本：2.7.5 操作系統(tǒng)：CentOS Linux 7 集群方式：yarn-cluster 一、在linux中將excel文件轉(zhuǎn)換成CSV文件，然后上傳到hdfs中。為何要先轉(zhuǎn)csv呢？主要原因是pysp
2024年02月07日
瀏覽(32)
educoder--MapReduce基礎(chǔ)實戰(zhàn)各關(guān)卡通關(guān)答案
任務(wù)描述相關(guān)知識什么是MapReduce 如何使用MapReduce進(jìn)行運(yùn)算代碼解釋編程要求測試說明任務(wù)描述本關(guān)任務(wù)：使用Map/Reduce計算班級中年齡最大的學(xué)生。相關(guān)知識為了完成本關(guān)任務(wù)，你需要掌握：1.什么是MapReduce，2.如何使用MapReduce進(jìn)行運(yùn)算。什么是MapReduce MapReduce是一種可
2023年04月17日
瀏覽(125)

<pre id="jw6nz"><mark id="jw6nz"></mark></pre><strike id="jw6nz"></strike>

<bdo id="jw6nz"></bdo>