在上一篇文章:《在Hive/Spark上運行執(zhí)行TPC-DS基準(zhǔn)測試 (ORC和TEXT格式)》中,我們介紹了如何使用 hive-testbench 在Hive/Spark上執(zhí)行TPC-DS基準(zhǔn)測試,同時也指出了該項目不支持parquet格式。
如果我們想要生成parquet格式的測試數(shù)據(jù),就需要使用其他工具了。本文選擇使用另外一個開源項目:https://github.com/kcheeeung/hive-benchmark,它和 hive-testbench 項目非常接近,操作方法也很類似,如果你熟悉 hive-testbench, 應(yīng)該會必要容易掌握這個工具。
備注:本文使用的Hive/Spark環(huán)境為AWS EMR,版本:6.11,未啟用Glue Data Catalog。本文操作須在EMR Master節(jié)點上執(zhí)行!因為腳本中會使用到hdfs、beeline等命令行工具,此外,經(jīng)測試發(fā)現(xiàn):如果EMR集群使用的是Glue Data Catalog,腳本執(zhí)行過程中將會報錯:文章來源:http://www.zghlxwxcb.cn/news/detail-657710.html
文章來源地址http://www.zghlxwxcb.cn/news/detail-657710.html
到了這里,關(guān)于在Hive/Spark上執(zhí)行TPC-DS基準(zhǔn)測試 (PARQUET格式)的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!