首页速度优化大数据领域的健身科技数据智能

网站优化

雯雯的后宫-造相Z-Image-瑜伽女孩效果可视化：10组高质量瑜伽体式生成结果展示

打破B站缓存枷锁：m4s-converter让本地视频重获自由

2026-06-09 23:01:33

阅读时长:1分钟

562次阅读

核心内容摘要

Ubuntu 产品与服务整合报告

Spark调优技巧如何提升大数据作业性能关键词Spark调优、大数据性能、Shuffle优化、资源配置、算子优化摘要本文以“如何让Spark跑得更快”为核心通过生活化比喻、代码示例和实战案例系统讲解Spark调优的核心技巧。

从资源分配到数据处理从Shuffle优化到算子调优覆盖调优全链路帮助读者掌握提升大数据作业性能的“秘籍”。

背景介绍目的和范围在大数据领域Spark是处理海量数据的“瑞士军刀”。

但很多开发者遇到过这样的困扰同样的作业别人的集群1小时跑完自己的却要3小时或者资源用了80%任务还在“磨洋工”。

本文将聚焦Spark作业性能瓶颈的定位与优化覆盖资源配置、数据处理、Shuffle优化等核心场景适用于90%以上的生产环境调优需求。

预期读者刚入门Spark的大数据工程师想知道“为什么作业这么慢”有一定经验但遇到性能瓶颈的开发者想突破“优化天花板”负责集群资源管理的运维人员想提升资源利用率文档结构概述本文从“工厂生产”的生活化比喻切入逐步拆解Spark调优的核心模块先理解Spark的“基础组件”类比工厂的“厂长”“工人”“生产线”再学习调优的“四大武器”资源调优、数据调优、Shuffle优化、算子调优最后通过实战案例验证效果解答

常见问题。

术语表DriverSpark作业的“指挥官”类比工厂厂长负责分配任务ExecutorSpark作业的“一线工人”类比车间工人负责实际计算RDD弹性分布式数据集类比生产线上的“原料批次”可拆分、可恢复Shuffle数据重分区操作类比“跨车间物料搬运”高开销环节并行度同时执行的任务数类比“工人同时处理的订单数”核心概念与联系用“工厂生产”理解Spark故事引入小明的包子铺升级记小明开了一家包子铺生意越做越大原来的“手工包包子”模式单线程处理太慢了。

他决定升级成“工厂化生产”Spark集群请了一位“厂长”Driver负责分配任务比如“今天要包10000个包子”招了10个“工人”Executor每个工人有2双手cores同时包2笼包子并行执行任务原料按“批次”RDD分区运到车间每批1000个包子皮一个分区工人分工处理但遇到了问题肉馅需要从1号车间运到3号车间Shuffle搬运过程又慢又占地方小明的困惑正是Spark开发者的

常见问题如何让“工厂”更高效核心概念解释像给小学生讲故事

Driver vs Executor厂长和工人的分工Driver就像工厂的“厂长”负责制定生产计划解析代码、生成执行计划、监控进度看工人有没有偷懒、协调资源给工人分配原料。

Executor一线“工人”住在固定的车间节点有自己的“工具包”JVM进程负责实际干活计算RDD、处理数据。

每个工人有若干“手”cores同时干多个任务并行度。

RDD会“分身”的原料批次RDD弹性分布式数据集可以想象成“会分身的原料批次”。

比如要处理10000个包子皮RDD会把它们分成10个分区每批1000个每个分区被不同的工人处理。

如果某个分区的原料被弄脏了数据丢失RDD可以根据“生产记录”依赖关系重新生成这就是“弹性”。

Shuffle最耗时间的“跨车间搬运”Shuffle是Spark中最“烧时间”的操作比如groupByKey、reduceByKey都会触发Shuffle。

它就像“跨车间搬运肉馅”第一步每个工人Executor把自己车间的肉馅数据按目标车间分区分类打包Map阶段。

第二步通过快递网络把包裹运到目标车间Reduce阶段。

问题如果包裹太多数据量大、快递太慢网络带宽低整个过程就会很慢。

核心概念之间的关系工厂里的“协作游戏”Driver与Executor厂长Driver给工人Executor派任务工人干完活向厂长汇报进度。

如果工人罢工Executor挂掉厂长会重新派任务给其他工人。

RDD与ExecutorRDD的每个分区由一个Executor处理就像每批包子皮由一个工人负责包。

分区数太少批次太大工人会忙不过来分区数太多批次太小运输成本任务启动时间会增加。

Shuffle与RDDShuffle会生成新的RDD比如reduceByKey后的结果但这个过程需要跨分区搬运数据所以Shuffle后的RDD分区数并行度会影响后续任务的效率。

核心架构的文本示意图Spark作业执行流程 Driver厂长 → 生成DAG生产计划 → 拆分为Stage车间任务 → 每个Stage包含多个Task工人的具体任务 → 由Executor工人执行 → Shuffle跨车间搬运发生在Stage之间 → 最终输出结果Mermaid 流程图Driver: 厂长生成DAG生产计划拆分为Stage1车间1任务拆分为Stage2车间2任务Task

工人1的任务Task

工人2的任务Task

工人3的任务Task

工人4的任务Shuffle搬运数据到Stage2最终输出结果核心调优技巧四大武器提升性能武器一资源调优——给工人分配“合适的工具”Spark的资源配置就像给工人分配“工具”工具太少内存/CPU不足工人干不动工具太多资源浪费成本太高。

关键参数如下

Executor数量与Cores工人数量与“手的数量”Executor数量spark.executor.instances相当于工厂的“工人数量”。

太少会导致任务排队太多会增加通信开销厂长协调不过来。

经验值集群总CPU核数 ÷ 每个Executor的Cores数建议每个Executor用

个Cores。

例集群有40核每个Executor用5核 → 最多8个Executor。

Executor Coresspark.executor.cores每个工人的“手的数量”并行执行任务数。

Cores太少工人只能干一个任务太多任务间会抢资源内存不够。

避坑指南YARN集群中每个Executor的Cores不能超过节点总核数否则无法启动。

Executor内存工人的“工具箱大小”Executor内存spark.executor.memory每个工人的“工具箱”用于缓存数据、执行计算。

内存不足会导致频繁GC工人不停清理工具箱甚至OOM工具箱炸了。

关键公式Executor内存堆内存spark.executor.memory 堆外内存spark.memory.offHeap.size调优技巧堆内存占比70%用于存储缓存RDD30%用于执行计算任务。

堆外内存用于Shuffle时的磁盘排序避免堆内存GC影响。

代码示例资源配置最佳实践// SparkSession初始化时配置资源valsparkSparkSession.builder().appName(优化后的Spark作业).master(yarn).config(spark.executor.instances,

// 8个工人.config(spark.executor.cores,

// 每个工人5双手.config(spark.executor.memory,16g)// 每个工人16G工具箱.config(spark.memory.offHeap.enabled,true).config(spark.memory.offHeap.size,4g)// 4G堆外内存用于Shuffle.getOrCreate()武器二数据调优——让“原料”更“听话”数据是Spark的“原料”原料的“包装方式”序列化、“运输批次”分区、“体积”压缩直接影响处理速度。

分区调优把“大原料”拆成“小批次”RDD的分区数spark.default.parallelism决定了任务的并行度。

分区太少任务排队分区太多任务启动时间增加。

调优方法输入数据分区数 ≈ HDFS文件块数默认128MB/块。

Shuffle后数据分区数 Executor数 × Executor Cores × 2充分利用资源。

代码示例// 手动设置分区数Shuffle后建议设为200valshuffledRDDrawRDD.groupByKey(

// 200个分区

序列化给“原料”打包以便运输序列化是将数据对象转成字节流的过程。

Spark默认用Java序列化慢但通用建议用Kryo序列化更快、更紧凑。

调优步骤启用Kryospark.serializerorg.apache.spark.serializer.KryoSerializer注册自定义类避免反射开销spark.kryo.registratorcom.xxx.MyKryoRegistrator效果序列化速度提升

倍内存占用减少30%。

压缩给“包裹”减肥压缩可以减少Shuffle时的网络传输量和磁盘IO。

推荐使用Snappy压缩速度快压缩率适中。

配置示例// 全局启用压缩spark.conf.set(spark.io.compression.codec,snappy)// Shuffle阶段启用压缩spark.conf.set(spark.shuffle.compress,true)武器三Shuffle优化——减少“跨车间搬运”的成本Shuffle是Spark的“性能杀手”调优核心是减少Shuffle数据量和优化Shuffle过程。

减少Shuffle数据量提前过滤和聚合提前过滤在Shuffle前过滤掉不需要的数据比如filter操作。

例统计每个用户的订单金额先过滤掉金额为0的订单再groupByKey。

使用reduceByKey替代groupByKeyreduceByKey在Map端先做局部聚合减少Shuffle数据量而groupByKey直接传输所有数据。

代码对比// 低效groupByKey传输所有数据valgroupResultorderRDD.groupByKey().mapValues(_.sum)// 高效reduceByKey在Map端先聚合valreduceResultorderRDD.reduceByKey(__)// 直接sum

优化Shuffle参数让搬运更高效Shuffle并行度spark.sql.shuffle.partitions默认200根据数据量调整。

数据量100GB时设为400每个分区250MB。

Shuffle内存spark.shuffle.memoryFraction默认

2Shuffle可用堆内存占比数据量大时可提高到

3。

Shuffle管理器Spark

0默认用SortShuffleManager比HashShuffleManager更省磁盘无需额外配置。

避坑指南这些操作会触发Shuffle以下算子会触发Shuffle尽量避免或优化groupByKey、reduceByKey、aggregateByKey键值对操作join除了Broadcast Joinrepartition、coalesce(numPartitions, shuffletrue)强制Shuffle的重分区武器四算子调优——让“工人动作”更高效算子是Spark的“基本动作”不同算子的效率差异巨大。

mapvsmapPartitions批量处理更高效map对每个元素单独处理工人每次拿1个包子皮处理。

mapPartitions对整个分区处理工人一次拿1000个包子皮处理减少函数调用开销。

适用场景需要连接外部资源如数据库时mapPartitions可以复用连接每个分区创建一次连接而不是每个元素。

代码示例// 低效每个元素创建一次数据库连接valresultrdd.map(x{valconngetConnection()// 频繁创建连接valresquery(conn,x)conn.close()res})// 高效每个分区创建一次连接valresultrdd.mapPartitions(iter{valconngetConnection()// 分区级连接valresiter.map(xquery(conn,x))conn.close()res})

避免使用collect防止“内存爆炸”collect会将所有数据拉到Driver端适合小数据量比如调试。

处理大数据时collect会导致Driver内存溢出厂长的办公室被“原料”堆爆了。

替代方案用take(

查看部分数据或用saveAsTextFile输出到HDFS。

使用Broadcast变量减少“重复搬运”当任务需要共享一个大变量如维表时用Broadcast将变量广播到所有Executor只传一次避免每个Task重复传输每个工人都要一份浪费带宽。

代码示例// 大维表1GBvaldictsc.textFile(hdfs://dict.txt).collectAsMap()// 低效每个Task重复传输dict1000个Task → 1000GB传输valresultrdd.map(xdict(x))// 高效Broadcast只传一次1GB → 所有Executor共享valbroadcastDictsc.broadcast(dict)valresultrdd.map(xbroadcastDict.value(x))数学模型和公式用“成本模型”理解调优Spark的性能可以用“任务执行时间”来量化T T 计算 T S h u f f l e T I O T T_{计算} T_{Shuffle} T_{IO}TT计算TShuffleTIO( T_{计算} )任务实际计算时间与算子效率、并行度有关( T_{Shuffle} )Shuffle的网络磁盘时间与Shuffle数据量、并行度有关( T_{IO} )数据读写时间与序列化、压缩有关调优目标最小化 ( T )即通过资源调优降低( T_{计算} )通过Shuffle优化降低( T_{Shuffle} )通过数据调优降低( T_{IO} )。

项目实战日志分析作业调优案例背景某电商公司的日志分析作业处理100GB用户行为日志存在以下问题运行时间4小时 → 业务需要缩短到2小时资源利用率Executor内存使用率80%但CPU使用率只有30%工人“磨洋工”调优前代码问题点分析valrawLogspark.read.text(hdfs://logs/)// 未设置分区数默认128MB/块 → 800个分区valuserActionrawLog.map(line{// map逐行处理效率低parseLine(line)// 解析日志可能抛异常未处理}).filter(_.isValid)// 过滤无效数据太晚Shuffle前应提前过滤valdailyCountuserAction.groupBy(userId,date)// groupByKey触发Shuffle未设置分区数默认

agg(count(*).as(actionCount))// 聚合操作dailyCount.write.parquet(hdfs://result/)// 未启用压缩文件大IO慢调优步骤与代码优化资源调优原配置executor.instances10executor.cores4executor.memory8g优化后executor.instances15集群有60核15×460executor.memory12g增加内存减少GC启用Kryo序列化和Snappy压缩。

数据调优手动设置分区数输入分区数100GB/256MB400原800太多增加任务启动时间。

Shuffle分区数15×4×2120充分利用资源。

启用Snappy压缩spark.io.compression.codecsnappy。

Shuffle优化用reduceByKey替代groupByKey提前局部聚合。

在Shuffle前过滤数据减少传输量。

算子优化用mapPartitions替代map批量解析日志复用解析器。

广播小维表如用户地域映射表。

优化后代码//

资源配置valsparkSparkSession.builder().config(spark.executor.instances,

.config(spark.executor.cores,

.config(spark.executor.memory,12g).config(spark.serializer,org.apache.spark.serializer.KryoSerializer).config(spark.io.compression.codec,snappy).getOrCreate()//

数据输入与分区调优输入分区数400valrawLogspark.read.text(hdfs://logs/).repartition(

// 手动设置输入分区数//

算子优化mapPartitions批量解析valuserActionrawLog.mapPartitions(iter{valparsernewLogParser()// 每个分区创建一次解析器iter.flatMap(lineparser.parse(line))// 过滤无效数据提前到解析阶段})//

Shuffle优化reduceByKey提前过滤valdailyCountuserAction.filter(_.isValid)// 提前过滤无效数据减少Shuffle量.map(x((x.userId,x.date),

).reduceByKey(__,

// Shuffle分区数

toDF(userId,date,actionCount)//

输出启用压缩dailyCount.write.option(compression,snappy).parquet(hdfs://result/)调优效果对比指标调优前调优后提升幅度运行时间4小时

5小时

6

5%Shuffle数据量80GB25GB

6

75%CPU利用率30%85%183%内存GC频率每10分钟一次每1小时一次90%实际应用场景电商用户行为分析双十一大促期间处理亿级用户点击日志通过调优将实时分析延迟从5分钟缩短到30秒。

日志实时监控金融机构的交易日志监控通过优化Shuffle和并行度将异常检测延迟从小时级降到分钟级。

机器学习训练在Spark上训练推荐模型时调优数据分区和缓存策略将训练时间从24小时缩短到8小时。

工具和资源推荐Spark UI必用工具通过http://driver:4040查看Stage耗时、Shuffle数据量、Executor资源使用。

Spark Metrics结合PrometheusGrafana监控集群资源内存、CPU、网络定位瓶颈。

Alluxio分布式缓存系统加速HDFS和对象存储的访问适合频繁读取的热数据。

Databricks云原生Spark平台内置调优建议自动调整并行度、推荐压缩算法。

未来发展趋势与挑战自适应查询执行AQESpark

0的AQE能根据运行时统计信息自动调整Shuffle分区数、Join策略如动态切换Broadcast Join和Sort Merge Join减少人工调优成本。

统一内存管理Spark

1的Unified Memory Manager更智能地分配存储和执行内存减少OOM风险。

挑战随着数据量增长单作业处理PB级数据如何在分布式环境下避免“长尾任务”个别Task特别慢仍是难题。

总结学到了什么核心概念回顾资源调优给Executor分配合适的Cores和内存工人数量和工具大小。

数据调优调整分区数、使用Kryo序列化和压缩让原料批次更合理、包裹更轻便。

Shuffle优化减少Shuffle数据量提前过滤、用reduceByKey、调整并行度让搬运更高效。

算子优化用mapPartitions替代map、避免collect、使用Broadcast让工人动作更高效。

概念关系回顾调优是“系统性工程”资源配置决定了“硬件能力”数据调优决定了“原料质量”Shuffle优化减少了“跨车间搬运成本”算子优化提升了“工人动作效率”。

四者结合才能让Spark作业“跑得又快又稳”。

思考题动动小脑筋你的Spark作业中如何通过Spark UI判断是否存在Shuffle瓶颈提示看Stage的“Shuffle Write”和“Shuffle Read”大小如果你的作业中map算子耗时很长有哪些优化方法提示mapPartitions、复用对象、减少序列化为什么说“分区数不是越大越好”提示任务启动时间、资源竞争附录

常见问题与解答QExecutor内存足够但GC频繁怎么办A可能是对象分配过多比如map中频繁创建临时对象。

优化方法复用对象如使用StringBuilder代替拼接字符串、调整spark.memory.fraction增加执行内存占比。

QShuffle时磁盘IO很高如何降低A增加spark.shuffle.memoryFraction让更多Shuffle数据在内存中排序减少磁盘写入、使用SSD磁盘提升磁盘IO速度。

Q任务卡在“Calculating Stage”阶段怎么办A可能是DAG生成太慢比如数据量太大元数据获取耗时。

优化方法减少输入分区数合并小文件、使用Parquet等列式存储元数据更少。

扩展阅读参考资料《Spark性能调优指南》官方文档《大数据处理Spark实战与调优》机械工业出版社Spark