Hadoop面试题之Yarn

1.简述Hadoop1与Hadoop2的架构异同

加入了yarn解决了资源调度的问题
加入了对zookeeper的支持实现比较可靠的高可用

2.为什么会产生yarn,它解决了什么问题，有什么优势？

解决的问题：Yarn最主要的功能就是解决运行的用户程序与yarn框架完全解耦
优势：Yarn上可以运行各种类型的分布式运算程序（mapreduce只是其中的一种），比如mapreduce、storm程序，spark程序….

3.HDFS的数据压缩算法有哪些？每种算法的优缺点和应用场景是什么？

gzip压缩
- 优点：压缩率比较高，而且压缩/解压速度也比较快；hadoop本身支持，在应用中处理gzip格式的文件就和直接处理文本一样；大部分linux系统都自带gzip命令，使用方便。
- 缺点：不支持split。
- 应用场景：当每个文件压缩之后在130M以内的（1个块大小内），都可以考虑用gzip压缩格式。例如说一天或者一个小时的日志压缩成一个gzip文件，运行mapreduce程序的时候通过多个gzip文件达到并发。hive程序， streaming程序，和java写的mapreduce程序完全和文本处理一样，压缩之后原来的程序不需要做任何修改。
Bzip2压缩
- 优点：支持split；具有很高的压缩率，比gzip压缩率都高；hadoop本身支持，但不支持native；在linux系统下自带bzip2命令，使用方便。
- 缺点：压缩/解压速度慢；不支持native。
- 应用场景：适合对速度要求不高，但需要较高的压缩率的时候 ，可以作为mapreduce作业的输出格式；或者输出之后的数据比较大，处理之后的数据需要压缩存档减少磁盘空间并且以后数据用得比较少的情况；或者对单个很大的文本文件想压缩减少存储空间，同时又需要支持split ，而且兼容之前的应用程序（即应用程序不需要修改）的情况。
Lzo压缩
- 优点：压缩/解压速度也比较快，合理的压缩率；支持split，是hadoop中最流行的压缩格式；可以在linux系统下安装lzop命令，使用方便。
- 缺点：压缩率比gzip要低一些；hadoop本身不支持，需要安装；在应用中对lzo格式的文件需要做一些特殊处理（为了支持split需要建索引，还需要指定inputformat为lzo格式）。
- 应用场景：一个很大的文本文件，压缩之后还大于200M以上的可以考虑，而且单个文件越大，lzo优点越明显。
Snappy压缩
- 优点：高速压缩速度和合理的压缩率。
- 缺点：不支持split；压缩率比gzip要低；hadoop本身不支持，需要安装；
- 应用场景：当Mapreduce作业的Map输出的数据比较大的时候，作为Map到Reduce的中间数据的压缩格式；或者作为一个Mapreduce作业的输出和另外一个Mapreduce作业的输入

4.Hadoop的调度器总结

目前，Hadoop的作业调度器主要有三种：FIFO Scheduler、Capacity Scheduler和Fair Scheduler
Hadoop默认的资源调度器是FIFO Scheduler，Hadoop2.7.2默认的资源调度器是Capacity Scheduler

具体设置详见：yarn-default.xml文件:

<property>
<description>The class to use as the resource scheduler.</description>
<name>yarn.resourcemanager.scheduler.class</name>
<value>
org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacityScheduler
</value>
</property>

先进先出调度器（FIFO Scheduler）

Hadoop中默认的调度器，是Hadoop最早实现的调度器之一，也是最简单的一种。它按照任务到达的顺序来进行调度，即先提交的任务先被执行。虽然实现简单，但它并不适合用于生产环境，因为不考虑作业的优先级、资源需求和执行时间等因素，可能导致资源利用不高，长作业等待时间过长。
容量调度器（Capacity Scheduler）

Hadoop2.x之后默认的调度器

采用多队列的方式。以队列为单位划分资源，每个队列可设定一定比例的资源最低保证和使用上限。每个队列内部采用FIFO的调度策略。

调度过程：当job提交后大致由如下过程
1）为job选择队列，通过计算队列资源使用率，选择”最闲的”队列
2）将队列中的job按照提交时间排序，选择最早的Application分配资源

一个队列中同时只能有一个job执行，队列并行度等于队列的个数，允许并行运行
公平调度器（ Fair Scheduler）

公平调度器也是Hadoop YARN引入的调度器，它的主要目标是保证所有作业公平地共享集群资源。它根据作业的需求和历史执行情况来动态地分配资源。不同于容量调度器的静态资源划分，公平调度器会在运行时根据资源需求进行动态调整。每个作业被分配的资源量与其他作业的需求和当前集群的负载情况成比例。这使得长作业无需等待过长时间，同时短作业也能得到及时的响应。