博客
分类
标签
归档
暗黑模式
博客
分类
标签
归档
暗黑模式
码猿不正经
主页
分类
几个Spark相关面试题
1.阐述下对Spark的并行度理解 Spark作业中 ,各个stage的task的数量 ,代表Spark作业在各个阶段stage的并行度。 分为资源并行度(物理并行度)和数据并行度(逻辑并行度) 资源并行度:由节点数(executor)和cpu数(core)决定的 数据并行度:task的数量,partition大小 task又分为map时的task和reduce(shuffle)时的ta...
2024-07-03
Spark面试题
Spark面试题
阅读全文
Hadoop面试题之Yarn
1.简述Hadoop1与Hadoop2的架构异同 加入了yarn解决了资源调度的问题 加入了对zookeeper的支持实现比较可靠的高可用 2.为什么会产生yarn,它解决了什么问题,有什么优势? 解决的问题:Yarn最主要的功能就是解决运行的用户程序与yarn框架完全解耦 优势:Yarn上可以运行各种类型的分布式运算程序(mapreduce只是其中的一种),比如mapreduce、sto...
2024-06-27
Hadoop面试题
Hadoop面试题
阅读全文
Hadoop面试题之MapReduce
1. 谈谈Hadoop序列化和反序列化及自定义bean对象实现序列化? https://blog.csdn.net/klionl/article/details/105395340 序列化概述 什么是序列化和反序列化: 序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输。 反序列化就是将收到字节序列(或其他数据传输协议)或者是磁盘的持...
2024-06-25
Hadoop面试题
Hadoop面试题
阅读全文
Hadoop面试题之Hadoop优化
1.MapReduce跑得慢的原因Mapreduce程序效率的瓶颈在于两点: 计算机性能:CPU、内存、磁盘健康状况以及网络速度都可能影响MapReduce任务的执行效率。 I/O 操作优化: 数据倾斜:某些任务由于数据分布不均匀,导致部分任务处理数据量远大于其他任务。 map和reduce数设置不合理:太多或太少的任务可能导致资源竞争或等待时间延长。 reduce等待过久:Ma...
2024-06-23
Hadoop面试题
Hadoop面试题
阅读全文
Hadoop面试题之HDFS
1.HDFS的存储机制(读写流程)总体: 按块(block)存储,默认按照128M大小进行文件数据拆分,将不同拆分的块数据存储在不同datanode服务器上 三副本机制:为了保证HDFS的数据的安全性,避免数据丢失,HDFS对每个块数据进行备份,默认情况下块数据会存储3份,叫做三副本,副本块存储在不同服务器上 默认存储策略由BlockPlacementPolicyDefault类支持。也就...
2024-06-21
Hadoop面试题
Hadoop面试题
阅读全文