码猿不正经

Hadoop面试题之Yarn

1.简述Hadoop1与Hadoop2的架构异同加入了yarn解决了资源调度的问题加入了对zookeeper的支持实现比较可靠的高可用 2.为什么会产生yarn,它解决了什么问题，有什么优势？解决的问题：Yarn最主要的功能就是解决运行的用户程序与yarn框架完全解耦优势：Yarn上可以运行各种类型的分布式运算程序（mapreduce只是其中的一种），比如mapreduce、sto...

2024-06-27 Hadoop面试题

阅读全文

Hadoop面试题之MapReduce

1. 谈谈Hadoop序列化和反序列化及自定义bean对象实现序列化？ https://blog.csdn.net/klionl/article/details/105395340 序列化概述什么是序列化和反序列化：序列化就是把内存中的对象，转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输。反序列化就是将收到字节序列(或其他数据传输协议)或者是磁盘的持...

2024-06-25 Hadoop面试题

阅读全文

Hadoop面试题之Hadoop优化

1.MapReduce跑得慢的原因Mapreduce程序效率的瓶颈在于两点：计算机性能：CPU、内存、磁盘健康状况以及网络速度都可能影响MapReduce任务的执行效率。 I/O 操作优化：数据倾斜:某些任务由于数据分布不均匀，导致部分任务处理数据量远大于其他任务。 map和reduce数设置不合理:太多或太少的任务可能导致资源竞争或等待时间延长。 reduce等待过久:Ma...

2024-06-23 Hadoop面试题

阅读全文

Hadoop面试题之HDFS

1.HDFS的存储机制（读写流程）总体：按块（block）存储，默认按照128M大小进行文件数据拆分，将不同拆分的块数据存储在不同datanode服务器上三副本机制：为了保证HDFS的数据的安全性，避免数据丢失，HDFS对每个块数据进行备份，默认情况下块数据会存储3份，叫做三副本，副本块存储在不同服务器上默认存储策略由BlockPlacementPolicyDefault类支持。也就...

2024-06-21 Hadoop面试题

阅读全文