Skip to content

Hadoop学习笔记

Apache Hadoop

官网地址:http://hadoop.apache.org

下载地址:https://hadoop.apache.org/releases.html

image-20241001222249518

HDFS架构概述

Hadoop Distributed File System,简称HDFS,是一个分布式文件系统。

1)NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。

2)DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和。

3)Secondary NameNode(2nn):每隔一段时间对NameNode元数据备份。

YARN架构概述

Yet Another Resource Negotiator简称YARN ,另一种资源协调者,是Hadoop的资源管理器。

image-20241001222545214

MapReduce架构概述

MapReduce将计算过程分为两个阶段:Map和Reduce

1)Map阶段并行处理输入数据

2)Reduce阶段对Map结果进行汇总

HDFS、YARN、MapReduce三者关系

image-20241001222707634

Hadoop目录结构

1)查看Hadoop目录结构

[liu@hadoop102 hadoop-3.1.3]$ ll
总用量 52
drwxr-xr-x. 2 liu liu  4096 5月  22 2017 bin
drwxr-xr-x. 3 liu liu  4096 5月  22 2017 etc
drwxr-xr-x. 2 liu liu  4096 5月  22 2017 include
drwxr-xr-x. 3 liu liu  4096 5月  22 2017 lib
drwxr-xr-x. 2 liu liu  4096 5月  22 2017 libexec
-rw-r--r--. 1 liu liu 15429 5月  22 2017 LICENSE.txt
-rw-r--r--. 1 liu liu   101 5月  22 2017 NOTICE.txt
-rw-r--r--. 1 liu liu  1366 5月  22 2017 README.txt
drwxr-xr-x. 2 liu liu  4096 5月  22 2017 sbin
drwxr-xr-x. 4 liu liu  4096 5月  22 2017 share

2)重要目录

(1)bin目录:存放对Hadoop相关服务(hdfs,yarn,mapred)进行操作的脚本

(2)etc目录:Hadoop的配置文件目录,存放Hadoop的配置文件

(3)lib目录:存放Hadoop的本地库(对数据进行压缩解压缩功能)

(4)sbin目录:存放启动或停止Hadoop相关服务的脚本

(5)share目录:存放Hadoop的依赖jar包、文档、和官方案例