概述

HDFS的产生背景和定义

背景

随着数据量越来越大，在一个操作系统存不下所有的数据，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。

定义

HDFS（Hadoop Distributed File System），它是一个文件系统，用于存储文件，通过目录树来定位文件；其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。

HDFS的使用场景：适合一次写入，多次读出的场景。一个文件经过创建、写入和关闭之后就不需要改变。

优缺点

优点

高容错性(多副本)

适合处理大数据

数据规模可达GB、TB甚至PB级别数据、

文件规模可达百万

可构建在廉价机器上，通过多副本机制，提升可靠性

缺点

不适合低时延数据访问（如毫秒级的存储数据，是做不到的）

无法高效的对大量小文件进行存储

存储大量小文件会占用NameNode大量内存来存储文件目录和块信息。不可取，因为NameNode内存有限

小文件的寻址时间会超过读取时间，违反了HDFS的设计目标

不支持并发写入，问价随机修改

一个文件只能有一个写，不允许多个线程同时写

仅支持数据append（追加），不支持文件随机修改

组成

NameNode(nn): Master,管理者

管理HDFS名称空间

配置副本策略

管理数据块（block）映射信息

处理客户端读写请求

DataNode：Slave, NameNode下达命令，DataNode执行实际的操作

存储实际的数据块

执行数据块的读/写操作

Client: 客户端

文件切分：文件上传HDFS的时候，Client将文件切分成一个一个的Block，然后进行上传

与NameNode进行交互，获取文件的位置信息

与DataNode交互，读取或者写入数据

Client可通过一些命令来管理HDFS，比如NameNode格式化

Client可以通过一些命令来访问HDFS,比如对HDFS增删改查操作

Secondary NameNode: 并非NameNode的热备，当NameNode挂掉的时候，并不能马上替换NameNode并提供服务。

辅助NameNode，分担其工作量，比如定期合并Fsimage和Editrs，并推送给NameNode

在紧急情况下，可辅助恢复NameNode

文件块大小(面试重点)

新浪面试题：

HDFS中的文件在物理上是分块存储(Block)，块的大小可以通过配置参数(hdfs-site.xml文件中的 dfs.blocksize)来规定，默认大小在Hadoop2.x/3.x版本中是128M,1.x版本中是64M。

集群中存在多个block，若寻址时间（遍历到目标块的时间）为10ms

寻址时间为传输时间的1%时，则为最佳状态。，因此传输时间为 10ms / 0.01 = 1s

机械硬盘的传输速率普遍为100MB/s（固态硬盘为200-300MB/s）

因此块的大小应该为1s * 100MB/s = 100M, 因此设置为128M

思考：为什么块的大小不能设置太小也不能设置太大

HDFS块太小，会增加寻址时间，程序一直在找块的开始位置

如果块设置太大，从磁盘传输数据的时间会明显大于定位这个块开始位置所需的时间。导致程序在处理这个块时，会非常慢。

总结：HDFS块大小的设置主要取决于磁盘传输速率。

HDFS的Shell相关操作（开发重点）

基本语法

# 两个完全一样
hadoop fs 具体命令
hdfs dfs 具体命令

# 查看命令具体信息
hadoop fs -help rm

# 查看有哪些命令
hadoop fs
hdfs dfs

常用命令

准备工作

#1. 启动集群
#2. 创建文件夹
hadoop fs -mkdir /sanguo

上传

-moveFromLocal：从本地剪切上传到HDFS

hadoop fs -moveFromLocal ./shuguo.txt /sanguo

-copyFromLocal：从本地拷贝上传到HDFS

hadoop fs -copyFromLocal weiguo.txt /sanguo

-put：等同于-copyFromLocal，生产环境更习惯使用-put

hadoop fs -put wuguo.txt /sanguo

-appendToFile: 追加一个文件到已存在的文件末尾

hadoop fs -appendToFile liubei.txt /sanguo/shuguo.txt

下载

-copyToLocal：HDFS拷贝到本地

hadoop fs -copyToLocal /sanguo/shuguo.txt ./

-get：等同于-copyToLocal，生产环境更习惯使用-get

hadoop fs -get /sanguo/shuguo.txt ./shuguo2.txt

HDFS直接操作

hadoop fs -ls /sanguo

-cat：显示文件内容

hadoop fs -cat /sanguo/shuguo.txt

-chgrp、-chmod、-chwon：Linux文件系统中的用法一样，修改文件所属以及权限

hadoop fs -chmod 666
hadoop fs -chown atguigu:atguigu /sanguo/shuguo.txt

-mkdir：创建路径
-cp：从HDFS的一个路径拷贝到HDFS的另一个路径
-mv：在HDFS目录中移动文件
-tail：显示一个文件末尾1kb的数据

hadoop fs -tail /sanguo/shuguo.txt

-rm：删除文件或问文件夹
-rm -r：递归删除文件或问文件夹
-du：统计文件夹的大小信息

hadoop fs -du -s -h /jinguo
27 81 /jinguo
# 27表示文件大小，81表示27*3个副本，/jinguo表示查看目录

hadoop fs -du -h /jinguo
14 42 /jinguo/shuguo.txt
7 21 /jinguo/weiguo.txt
6 18 /jinguo/wuguo.txt

-setrep: 设置HDFS中文件副本的数量

hadoop fs -setrep 10 /sanguo/shuguo.txt

# 这里设置的副本数只是记录在 NameNode 的元数据中，是否真的会有这么多副本，还得
# 看 DataNode 的数量。因为目前只有 3 台设备，最多也就 3 个副本，只有节点数的增加到 10
# 台时，副本数才能达到 10。

HDFS的客户端API

新建maven项目

Maven配置

<dependencies>
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-client</artifactId>
        <version>3.1.3</version>
    </dependency>
    <dependency>
        <groupId>junit</groupId>
        <artifactId>junit</artifactId>
        <version>4.13.2</version>
    </dependency>
    <dependency>
        <groupId>org.slf4j</groupId>
        <artifactId>slf4j-log4j12</artifactId>
        <version>2.0.5</version>
    </dependency>
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-hdfs</artifactId>
        <version>3.3.2</version>
    </dependency>
</dependencies>

在main.resources下新建log4j.properties文件,写入以下内容

log4j.rootLogger=INFO, stdout 
log4j.appender.stdout=org.apache.log4j.ConsoleAppender 
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout 
log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n 
log4j.appender.logfile=org.apache.log4j.FileAppender 
log4j.appender.logfile.File=target/spring.log 
log4j.appender.logfile.layout=org.apache.log4j.PatternLayout
log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n

HDFSClient代码

package com.atguigu.hdfs;

import org.apache.commons.io.LineIterator;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.*;
import org.junit.After;
import org.junit.Before;
import org.junit.Test;

import java.io.File;
import java.io.IOException;
import java.net.URI;
import java.net.URISyntaxException;
import java.util.Arrays;

/**
* 客户端代码常用套路
* 1、获取一个客户端对象
* 2、执行相关的操作指令
* 3、关闭资源
* HDFS Zookeeper
* */
public class HdfsClient {

    private FileSystem fs;

    @Before
    public void init() throws URISyntaxException, IOException, InterruptedException {
        // 连接集群nn地址
        URI uri = new URI("hdfs://h100:1462");

        // 创建一个配置文件
        Configuration entries = new Configuration();

        entries.set("dfs.replication", "2");

        // 操作用户
        String usr = "root";

        // 1. 获取到客户端对象
        fs = FileSystem.get(uri, entries, usr);
    }

    @After
    public void close() throws IOException {
        // 3. 关闭资源
        fs.close();
    }

    //创建文件夹
    @Test
    public void testmkdir() throws URISyntaxException, IOException, InterruptedException {
        // 2. 创建一个文件夹
        fs.mkdirs(new Path("/xiyou/huaguoshan2"));
    }

    //上传文件
    /**
     * 参数优先级
     * hdfs-default.xml < hdfs-site.xml < 在项目资源目录下的配置文件 < 代码里的配置
     * @throws IOException
     */
    @Test
    public void testPut() throws IOException {
        Path path1 = new Path("D:\Code\testdata\sunwukong.txt");
        Path path2 = new Path("D:\Code\testdata\tongbei.txt");
        // 参数1: 表示元数据是否删除， 参数2: 是否允许覆盖， 参数3： 元数据路径， 参数4： 目标数据路径
        fs.copyFromLocalFile(false, true, new Path[]{path1, path2}, new Path("/xiyou/huaguoshan"));
    }

    @Test
    //文件下载
    public void testGet() throws IOException {
        // 参数1：是否删除源文件， 参数2：源文件路径， 参数3：目标路径Windows， 参数4：是否开启本地crc校验
        fs.copyToLocalFile(false,
                new Path("/xiyou/huaguoshan/sunwukong.txt"),
                new Path("D:\Code\testdata\download\sunwukong.txt"),
                true
        );
    }

    //文件删除
    @Test
    public void delete() throws IOException {
        //参数1： 文件/文件夹路径，参数2：是否递归删除
        fs.delete(new Path("/xiyou/huaguoshan"), true);
    }

    //文件更名和移动
    @Test
    public void testmv() throws IOException {
        //参数1：源文件路径，参数二：目标文件路径
//        fs.rename(new Path("/wcinput/songsong.txt"), new Path("/wcinput/cls.txt"));

//        fs.rename(new Path("/wcinput/cls.txt"), new Path("/cls.txt"));

        //目录更名

        fs.rename(new Path("/wcinput"), new Path("/input"));
    }

    //获取文件详情信息
    @Test
    public void fillDetail() throws IOException {
        //参数1:路径，参数2：是否递归
        RemoteIterator<LocatedFileStatus> listFiles = fs.listFiles(new Path("/"), true);

        while (listFiles.hasNext()) {
            LocatedFileStatus fileStatus = listFiles.next();
            StringBuilder sb = new StringBuilder();
            sb.append(fileStatus.getPermission() + " ");
            sb.append(fileStatus.getOwner() + " ");
            sb.append(fileStatus.getGroup() + " ");
            sb.append(fileStatus.getLen() + " ");
            sb.append(fileStatus.getModificationTime() + " ");
            sb.append(fileStatus.getReplication() + " ");
            sb.append(fileStatus.getBlockSize() + " ");
            sb.append(fileStatus.getPath().getName());

            System.out.println(sb.toString());

            //获取块信息
            BlockLocation[] blockLocations = fileStatus.getBlockLocations();

            System.out.println(Arrays.toString(blockLocations));
        }
    }

    //HDFS文件以及文件夹的判断
    @Test
    public void testfile() throws IOException {
        FileStatus[] fileStatuses = fs.listStatus(new Path("/"));

        for (FileStatus status : fileStatuses) {
            if (status.isFile()) {
                System.out.println("文件: " + status.getPath().getName());
            }
            else {
                System.out.println("文件夹： " + status.getPath().getName());
            }
        }
    }

}

HDFS的读写流程（面试重点）

HADF的写数据流程

HDFSClient构建一个Distributed FileSystem，通过其向NameNode请求上传文件，NameNode检查目标文件是否已经存在，父目录是否存在。

NameNode向HttpClient相应可以上传。

客户端请求第一个Block上传到哪几个DataNode服务器上。

NameNode返回三个DataNode节点，分别是dn1, dn2, dn3。

客户端通过FSDataOutputStream模块请求dn1上传数据，dn1收到请求后会继续调用dn2，然后dn2调用dn3，将这个通信管道建立完成。

dn1、dn2、dn3逐级应答客户端。

客户端开始往dn1上传第一个block(先从磁盘读取数据放到一个本地内存缓存),以Packet为单位，dn1收到一个Packet就会传给dn2, dn2传给dn3; dn1每传一个packet会放入一个应答队列等待应答。

当一个Block传输完成后，客户端再次请求NameNode上传第二个Block的服务器。（重复执行3-7步）

网络拓扑-节点距离计算

在HDFS写数据的过程中，NameNode会选择距离待上传数据最近距离的DataNode接收数据。

节点距离：两个接地单到达最近的共同祖先的距离总和。

机架感知（副本存储节点选择）

第一个副本在Client所处的节点上，如果客户端在集群外，随机选一个。

第二个副本在另一个机架的随机一个节点上。

第三个副本在第二个副本所在机架的随机节点。

源码：Crtl + n 查找 BlockPlacementPolicyDefault，在该类中查找 chooseTargetInOrder 方法。

HDFS读数据流程

客户端通过DistributedFileSystem向NameNode请求下载文件，NameNode通过查询元数据，找到文件块所在的DataNode地址。

挑选一台DataNode（就近原则，然后随机，也会考虑负载问题）服务器，请求读取数据。

DataNode开始传输数据给客户端（从磁盘里面读取数据数据流，以Packet为单位来做校验）。

客户端以Packet为单位接收，在本地缓存，然后写入目标文件。

NN和2NN工作机制（了解）

思考：NameNode中的元数据是存储在哪里的？

首先，我们做个假设，如果存储在NameNode节点的磁盘中，因为经常需要进行随机访问，还有响应客户请求，必然是效率过低。因此，元数据需要存放在内存中。但如果只存在内存中，一旦断电，元数据丢失，整个集群就无法工作了。因此产生在磁盘中备份元数据的FsImage。

这样又会带来新的问题，当在内存中的元数据更新时，如果同时更新FsImage，就会导致效率过低，但如果不更新，就会发生一致性问题，一旦NameNode节点断电，就会产生数据丢失。因此，引入Edits文件（只进行追加操作，效率很高）。每当元数据有更新或者添加元数据时，修改内存中的元数据并追加到Edits中。这样，一旦NameNode节点断电，可以通过FsImage和Edits的合并，合成元数据。

但是，如果长时间添加数据到Edits中，会导致该文件数据过大，效率降低，而且一旦断电，恢复元数据需要的时间过长。因此，需要定期进行FsImage和Edits的合并，如果这个操作由NameNode节点完成，又会效率过低。因此，引入一个新的节点SecondaryNamenode，专门用于FsImage和Edits的合并。

第一阶段

第一次启动NameNode格式化后，创建Fsimage和Edits文件。如果不是第一次启动，直接加载编辑日志和镜像文件到内存。

客户端对元数据进行增删改的请求。

NameNode记录操作日志，更新滚动日志。

NameNode在内存中对元数据进行增删改。

第二阶段

SecondaryNameNode询问NameNode是否需要CheckPoint。直接带回NameNode是否检查结果。

SecondaryNameNode请求执行CheckPoint。

NameNode滚动正在写的Edits日志。

将滚动前的编辑日志和镜像文件拷贝到Secondary NameNode。

Secondary NameNode加载编辑日志和镜像文件到内存，并合并。

生成新的镜像文件fsimage.chkpoint

拷贝fsimage.chkpoint到NameNode

NameNode将fsimage.chkpoint重新命名成fsimage

Fsimage和Edits解析

Fsiamge文件：HDFS文件系统元数据的一个永久性检查点，其中包含HDFS文件系的所有目录和文件inode的序列化信息。

Edits文件：存放HDFS文件系统的所有更新操作的路径，文件系统客户端执行的所有写操作首先会被记录到Edits文件中。

seen_txid文件保存的是一个数字，就是最后一个edits_的数字。

每次NameNode启动的时候都会将Fsimage文件读入内存，加载Edits里面的更新操作，保证内存中的元数据信息是最新的、同步的，可以看成NameNode启动的时候就将Fsimage和Edit文件进行了合并。

oiv查看Fsimage文件

# 语法
hdfs oiv -p 文件类型 -i 镜像文件 -o 转换后文件输出路径

# linux上传下载命令
yum -y install lrzsz
# 下载
sz 文件名
# 上传
rz

思考：Fsimage中没有记录块所对应的DataNode，为什么?

在集群启动后，要求DataNode上报数据块信息，并间隔一段时间后再次上报。

oev查看Edits文件

# 语法
hdfs oev -p 文件类型 -i 编辑日志 -o 转换后文件输出路径

NameNode与SecondaryNameNode关于集群的存储文件中相差信息为edits_inprogress文件

思考:NameNode如何确定下次开机启动的时候合并哪些Edits：合并大于fsimage编号的edits文件

CheckPoint检查点设置

通常情况下，SecondaryNameNode每隔一小时执行一次 [hdfs-default.xml]

<property>
  <name>dfs.namenode.checkpoint.period</name>
  <value>3600s</value>
</property>

一分钟检查一次操作数，当操作次数达到1百万，SecondaryNameNode执行一次.

<property>
  <name>dfs.namenode.checkpoint.txns</name>
  <value>1000000</value>
</property>
<property>
  <name>dfs.namenode.checkpoint.check.period</name>
  <value>60s</value>
</property>

DataNode工作机制（了解）

一个数据块在DataNode上以文件形式存储在磁盘上，包括两个文件，一个是数据本身（blk），一个是元数据包括数据块的长度，块数据的校验和，以及时间戳(blk.meta)。

DataNode启动后向NameNode注册，通过后，周期性（6小时）的向NameNode上报所有的块信息。

DN向NN汇报当前解读信息的时间间隔，默认6小时；

<property>
    <name>dfs.blockreport.intervalMsec</name>
    <value>21600000</value>
    <description>Determines block reporting interval in milliseconds.</description>
</property>

DN扫描自己节点块信息列表的时间，默认6小时

<property>
    <name>dfs.datanode.directoryscan.interval</name>
    <value>21600s</value>
        <description>Interval in seconds for Datanode to scan datadirectories and reconcile the         difference between blocks in memory and on the disk.
        Support multiple time unit suffix(case insensitive), as described
        in dfs.heartbeat.interval.
    </description>
</property>

心跳是每3秒一次，心跳返回结果带有NameNode给该DataNode的命令如复制块数据到另一台机器，或删除某个数据块。如果超过10分钟没有收到某个DataNode的心跳，则认为该节点不可用。

集群运行中可以安全加入和退出一些机器。

数据完整性

思考：若DataNode节点上的数据损坏了，却没有发现，是否很危险，如何解决?

以下是DataNode保证数据完整性的方法:

当DataNode读取Block时，会计算CheckSum

若计算后的CheckSum与Block创建时值不一样，说明Block已经损坏.

Client读取其他DataNode上的Block。

常见校验算法 crc(32), md5(128), shal(160)

DataNode在其稳健创建后周期验证CheckSum

掉线时限参数设置

DataNode进程死亡或者网络故障造成DataNode无法与NameNode通讯

NameNode不会立即把该节点判定为死亡，要经过一段时间，这段时间暂称作超时时长

HDFS默认的超时时长为10分钟+30s

若定义了TimeOut，则超时时长计算公式为：TimeOut = 2 * dfs.namenode.heartbeat.recheck-interval + 10 * dfs.heartbeat.interval

<property>
  <name>dfs.namenode.heartbeat.recheck-interval</name>
  <value>300000</value>
</property>

<property>
  <name>dfs.heartbeat.interval</name>
  <value>3s</value>
</property>

Hadoop-HDFS

概述

HDFS的产生背景和定义

背景

定义

优缺点

优点

缺点

组成

文件块大小(面试重点)

HDFS的Shell相关操作（开发重点）

基本语法

常用命令

准备工作

上传

下载

HDFS直接操作

HDFS的客户端API

Maven配置

在main.resources下新建log4j.properties文件,写入以下内容

HDFSClient代码

HDFS的读写流程（面试重点）

HADF的写数据流程

网络拓扑-节点距离计算

机架感知（副本存储节点选择）

HDFS读数据流程

NN和2NN工作机制（了解）

Fsimage和Edits解析

oiv查看Fsimage文件

oev查看Edits文件

CheckPoint检查点设置

DataNode工作机制（了解）

数据完整性

掉线时限参数设置