博客
分类
标签
归档
暗黑模式
博客
分类
标签
归档
暗黑模式
码猿不正经
主页
分类
几个Spark相关面试题
1.阐述下对Spark的并行度理解 Spark作业中 ,各个stage的task的数量 ,代表Spark作业在各个阶段stage的并行度。 分为资源并行度(物理并行度)和数据并行度(逻辑并行度) 资源并行度:由节点数(executor)和cpu数(core)决定的 数据并行度:task的数量,partition大小 task又分为map时的task和reduce(shuffle)时的ta...
2024-07-03
Spark面试题
Spark面试题
阅读全文
Hadoop面试题之Yarn
1.简述Hadoop1与Hadoop2的架构异同 加入了yarn解决了资源调度的问题 加入了对zookeeper的支持实现比较可靠的高可用 2.为什么会产生yarn,它解决了什么问题,有什么优势? 解决的问题:Yarn最主要的功能就是解决运行的用户程序与yarn框架完全解耦 优势:Yarn上可以运行各种类型的分布式运算程序(mapreduce只是其中的一种),比如mapreduce、sto...
2024-06-27
Hadoop面试题
Hadoop面试题
阅读全文
Hadoop面试题之MapReduce
1. 谈谈Hadoop序列化和反序列化及自定义bean对象实现序列化? https://blog.csdn.net/klionl/article/details/105395340 序列化概述 什么是序列化和反序列化: 序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输。 反序列化就是将收到字节序列(或其他数据传输协议)或者是磁盘的持...
2024-06-25
Hadoop面试题
Hadoop面试题
阅读全文
Hadoop面试题之Hadoop优化
1.MapReduce跑得慢的原因Mapreduce程序效率的瓶颈在于两点: 计算机性能:CPU、内存、磁盘健康状况以及网络速度都可能影响MapReduce任务的执行效率。 I/O 操作优化: 数据倾斜:某些任务由于数据分布不均匀,导致部分任务处理数据量远大于其他任务。 map和reduce数设置不合理:太多或太少的任务可能导致资源竞争或等待时间延长。 reduce等待过久:Ma...
2024-06-23
Hadoop面试题
Hadoop面试题
阅读全文
Hadoop面试题之HDFS
1.HDFS的存储机制(读写流程)总体: 按块(block)存储,默认按照128M大小进行文件数据拆分,将不同拆分的块数据存储在不同datanode服务器上 三副本机制:为了保证HDFS的数据的安全性,避免数据丢失,HDFS对每个块数据进行备份,默认情况下块数据会存储3份,叫做三副本,副本块存储在不同服务器上 默认存储策略由BlockPlacementPolicyDefault类支持。也就...
2024-06-21
Hadoop面试题
Hadoop面试题
阅读全文
数据分析-指标波动归因分析【转】
指标波动归因分析数据分析师在工作中经常会遇到类似下面的问题 为什么这个月的销售额提升了30% 转化率又降了,竟然同比降低了42%,是什么原因导致的呢? 这类问题可以概括为指标波动归因分析,很多时候数据分析师会用根据经验探索拆分的办法来处理它们,不仅非常花时间,而且数据分析师获得的价值感也不高。如果能够找到一些高效定位指标波动原因的方法,形成自动化判断机制,就能大大释放数据分析师的精力,使...
2024-04-07
数据分析
数据分析
阅读全文
机器学习算法-KMeans聚类
KMeans聚类算法KMeans聚类:KMeans单词—-K(K个聚类中心)+Means(根据均值迭代聚类中心) KMeans聚类算法是一种经典的聚类方法,属于无监督学习。它的主要目标是将n个样本划分到k个簇中,使得每个样本属于与其最近的均值(即簇中心)对应的簇,从而使得簇内的方差最小化。 K-Means算法的思想: 对给定的样本集,用欧氏距离(向量)作为衡量数据对象间相似度的指标,相似度...
2024-03-29
算法
机器学习
算法
机器学习
阅读全文
排序算法-快速排序
快速排序 快速排序(Quick Sort)是一种高效的排序算法,由英国计算机科学家托尼·霍尔(Tony Hoare)在1960年提出。它采用分治法(Divide and Conquer)的策略来把一个序列分为较小和较大的两个子序列,然后递归地排序两个子序列。 快速排序的步骤: 选择基准值(Pivot):从数组中选择一个元素作为基准值,通常选择第一个元素、最后一个元素、中间元素或随机元素...
2024-03-24
算法
排序
算法
排序
阅读全文
算法入门-时间复杂度与空间复杂度
算法复杂度是衡量算法性能的一个重要指标,它描述了算法执行所需时间和资源(通常是计算步骤数或内存使用量)与输入数据规模的关系。算法复杂度通常用大O符号(Big O notation)来表示,最常见的是时间复杂度和空间复杂度。 时间复杂度 算法的时间复杂度是指算法在执行时所需的时间与输入数据规模之间的关系。它是衡量算法效率的一个重要标准。 常见的时间复杂度类别 常数时间复杂度 - O(...
2024-03-24
算法
算法
阅读全文