Hadoop学习笔记
Apache Hadoop
HDFS架构概述
Hadoop Distributed File System,简称HDFS,是一个分布式文件系统。
1)NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。
2)DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和。
3)Secondary NameNode(2nn):每隔一段时间对NameNode元数据备份。
YARN架构概述
Yet Another Resource Negotiator简称YARN ,另一种资源协调者,是Hadoop的资源管理器。
MapReduce架构概述
MapReduce将计算过程分为两个阶段:Map和Reduce
1)Map阶段并行处理输入数据
2)Reduce阶段对Map结果进行汇总
HDFS、YARN、MapReduce三者关系
Hadoop目录结构
1)查看Hadoop目录结构
[liu@hadoop102 hadoop-3.1.3]$ ll
总用量 52
drwxr-xr-x. 2 liu liu 4096 5月 22 2017 bin
drwxr-xr-x. 3 liu liu 4096 5月 22 2017 etc
drwxr-xr-x. 2 liu liu 4096 5月 22 2017 include
drwxr-xr-x. 3 liu liu 4096 5月 22 2017 lib
drwxr-xr-x. 2 liu liu 4096 5月 22 2017 libexec
-rw-r--r--. 1 liu liu 15429 5月 22 2017 LICENSE.txt
-rw-r--r--. 1 liu liu 101 5月 22 2017 NOTICE.txt
-rw-r--r--. 1 liu liu 1366 5月 22 2017 README.txt
drwxr-xr-x. 2 liu liu 4096 5月 22 2017 sbin
drwxr-xr-x. 4 liu liu 4096 5月 22 2017 share
2)重要目录
(1)bin目录:存放对Hadoop相关服务(hdfs,yarn,mapred)进行操作的脚本
(2)etc目录:Hadoop的配置文件目录,存放Hadoop的配置文件
(3)lib目录:存放Hadoop的本地库(对数据进行压缩解压缩功能)
(4)sbin目录:存放启动或停止Hadoop相关服务的脚本
(5)share目录:存放Hadoop的依赖jar包、文档、和官方案例