一聚教程网:一个值得你收藏的教程网站

热门教程

hadoop安装配置小结

时间:2022-06-29 10:00:19 编辑:袖梨 来源:一聚教程网


hadoop配置文件hadoop的各个组件均可利用xml文件进行配置。core-default.xml 文件用于配置Common组件的属性,hdfs-site.xml文件用于配置HDF属性,mapred-site.xml文件用于配置MapReduce属性,这些文件都放在conf子目录中。

注:docs子目录中还存放三个html文件,即core-default.html,hdfs-site.html,mapred-site.html它们保存各组件的默认属性设置

详细配置文件如下:

1、dfs.hosts 记录即将作为datanode加入集群的机器列表
2、mapred.hosts 记录即将作为tasktracker加入集群的机器列表
3、dfs.hosts.exclude mapred.hosts.exclude 分别包含待移除的机器列表
4、master 记录运行辅助namenode的机器列表
5、slave 记录运行datanode和tasktracker的机器列表
6、hadoop-env.sh 记录脚本要用的环境变量,以运行hadoop
7、core-site.xml hadoop core的配置项,例如hdfs和mapreduce常用的i/o设置等
8、hdfs-site.xml hadoop守护进程的配置项,包括namenode、辅助namenode和datanode等
9、mapred-site.xml mapreduce守护进程的配置项,包括jobtracker和tasktracker
10、hadoop-metrics.properties 控制metrics在hadoop上如何发布的属性
11、log4j.properties 系统日志文件、namenode审计日志、tasktracker子进程的任务日志的属性注:这些
文件都放在conf目录中。配置目录也可重新放在文件系统的其他地方(便于修改升级),但是守护进程启动时需要使用–config选项,以指向本地文件系统的某个目录。

hadoop运行模式独立模式(standalone或local mode):
无需运行任何守护进程,所有程序都在单个JVM上执行。由于在本机模式下测试和调试MapReduce程序较为方便,因此该模式适宜用在开发阶段

伪分布模式(pseudo-distributed model):
Hadoop守护进程运行在本地机器上,模拟一个小规模的集群。

全分布模式(fully distributed model):
Hadoop守护进程运行在一个集群上。

各模式最小属性集合在特定模式下运行hadoop需要关注两个因素:正确设置属性和启动hadoop守护进程
下表列出了配置各种模式所需要的最小属性集合。

  组件名称 属性名称 独立模式 伪分布模式 全分布模式
Common fs.default.name file:// hdfs://localhost/ hdfs://namenode
HDFS dfs.replication N/A 1 3(默认)
MapReduce mapred.job.tracker local(默认) localhost:8021 jobtracker:8021

热门栏目