当前位置：网站首页>HiBench生成基准数据集【WordCount为例】

HiBench生成基准数据集【WordCount为例】

2022-07-16 21:21:00 【Huang3stone】

1.下载HiBench
官网地址：https://github.com/Intel-bigdata/HiBench/tree/HiBench-7.1

在这里插入图片描述
2.上传服务器
过程略
3.解压文件
由于压缩包是.zip文件，无法使用tar解压，需要下载unzip

yum install unzip

unzip xxx.zip

4.修改配置文件

cp hadoop.conf.template hadoop.conf

修改 hadoop.conf（根据自己节点情况配置）

# Hadoop home
hibench.hadoop.home     /usr/local/hadoop-3.1.1

# The path of hadoop executable
hibench.hadoop.executable     ${hibench.hadoop.home}/bin/hadoop

# Hadoop configraution directory
hibench.hadoop.configure.dir  ${hibench.hadoop.home}/etc/hadoop

# The root HDFS path to store HiBench data
hibench.hdfs.master       hdfs://192.168.152.109:9820/hibench


# Hadoop release provider. Supported value: apache, cdh5, hdp
hibench.hadoop.release    apache
~

进入conf/workloads/micro/,wordcount.conf文件配置的是生成的数据量大小

这里我自定义了一个1G大小的数据集


#datagen
#hibench.wordcount.tiny.datasize 32000
#hibench.wordcount.small.datasize 320000000
#hibench.wordcount.large.datasize 3200000000
#hibench.wordcount.huge.datasize 32000000000
#hibench.wordcount.gigantic.datasize 320000000000
#hibench.wordcount.bigdata.datasize 1600000000000

hibench.wordcount.large.datasize                1073741824


hibench.workload.datasize               ${hibench.wordcount.${hibench.scale.profile}.datasize}

# export for shell script
hibench.workload.input                  ${hibench.hdfs.data.dir}/Wordcount/Input
hibench.workload.output                 ${hibench.hdfs.data.dir}/Wordcount/Output