首页速度优化黄台404官方版_探秘数字荒漠中的避风港

网站优化

告别迷茫，掌握“辶喿辶臿辶喿”的奥秘，开启效率新篇章！

三级视频网站

2026-06-12 12:19:13

阅读时长:8分钟

562次阅读

核心内容摘要

奇米·黑夜之语：探寻暗夜中的奇幻低语

在千亿参数大模型如 LLaMA-7B/13B的训练场景中显存瓶颈与训练中断恢复是两大核心痛点 —— 前者直接限制模型规模后者会导致工业级训练的时间与算力成本翻倍。

本次分享基于 MindSpore 的高阶训练特性构建 “分层显存优化增量式断点续训” 的工业级大模型训练方案实现单卡支持 7B 模型全量训练、断点恢复耗时从小时级降至分钟级同时通过算子级优化将训练吞吐量提升 35%。

方案附全流程代码与显存利用率量化分析。

大模型分层显存优化混合精度张量重计算显存分片场景训练 LLaMA-7B 模型时单卡A100 80G直接加载全量参数会导致显存占用超 90%训练中极易触发 OOM传统混合精度训练仅优化数据类型无法解决大模型的中间激活值显存占用问题。

MindSpore 技术实践采用三级显存优化策略结合 MindSpore 的AMP混合精度、Recompute张量重计算、TensorSlicer显存分片能力分层降低参数、激活值、梯度的显存开销import mindspore as ms from mindspore import nn, ops from mindspore.nn.transformer import RecomputeConfig from mindspore.train import amp #

混合精度训练配置FP16BF16混合 amp_level O3 # 最高级混合精度优化 cast_type ms.float16 # 权重与激活值用FP16梯度用BF16 loss_scaler amp.DynamicLossScaler(scale_value2**16, scale_factor2, scale_window

#

张量重计算配置仅保存关键层梯度中间激活值按需重计算 recompute_config RecomputeConfig() recompute_config.recompute True recompute_config.recompute_slice_activation True # 激活值分片存储 # 仅对Transformer的FeedForward层开启重计算注意力层保留激活值提升效率 recompute_layers [feed_forward] #

显存分片策略按维度拆分大张量降低单张量显存占用 class TensorSlicer: def init(self, slice_dim1, slice_num

: self.slice_dim slice_dim self.slice_num slice_num self.slice_op ops.Split(axisslice_dim, output_numslice_num) def slice(self, tensor): return self.slice_op(tensor) def concat(self, tensor_list): return ops.Concat(axisself.slice_dim)(tensor_list) #

集成到LLaMA模型训练 class LLaMATrainNetwork(nn.Cell): def init(self, llama_model): super().init() self.model llama_model self.slicer TensorSlicer() self.loss_fn nn.CrossEntropyLoss() def construct(self, input_ids, labels): # 输入张量分片降低显存峰值 input_ids_slices self.slicer.slice(input_ids) logits_slices [] for slice_ in input_ids_slices: logits self.model(slice_) logits_slices.append(logits) logits self.slicer.concat(logits_slices) loss self.loss_fn(logits.reshape(-1, logits.shape[-1]), labels.reshape(-

) return loss # 构建训练网络 llama_model nn.TransformerDecoder(num_layers32, hidden_size

# LLaMA-7B等效结构 train_net LLaMATrainNetwork(llama_model) train_net amp.build_train_network( train_net, optimizernn.AdamWeightDecay(train_net.trainable_params(), 1e-

, loss_scale_managerloss_scaler, amp_levelamp_level, cast_typecast_type ) # 效果LLaMA-7B单卡训练显存占用从75G降至45G激活值显存占比从40%降至15%

增量式断点续训全状态保存与精准恢复场景大模型训练周期长达数周断电、硬件故障等中断事件频发传统断点续训仅保存模型参数重启后需重新初始化优化器、重置数据迭代器导致重复训练 10%~20% 的 epoch算力浪费严重。

MindSpore 技术实践基于 MindSpore 的CheckpointManager实现增量式全状态保存—— 除模型参数外额外保存优化器状态、数据迭代器位置、训练超参、epoch/step 进度恢复时精准接续训练from mindspore.train import CheckpointManager, CheckpointConfig from mindspore.dataset import GeneratorDataset #

自定义全状态数据集记录迭代器位置 class ResumableDataset: def init(self, data, start_step

: self.data data self.start_step start_step self.total_steps len(data) def getitem(self, idx): return self.data[idx] def len(self): return self.total_steps - self.start_step #

配置增量式断点保存 ckpt_config CheckpointConfig( save_checkpoint_steps1000, # 每1000步保存一次 keep_checkpoint_max5, # 保留最新5个断点 integrated_saveTrue # 集成保存模型优化器状态 ) # 自定义CheckpointManager额外保存训练状态 class IncrementalCheckpointManager(CheckpointManager): def init(self, config, ckpt_dir): super().init(config, ckpt_dir) self.train_state {epoch: 0, step: 0, start_step: 0} def save_train_state(self, epoch, step): self.train_state[epoch] epoch self.train_state[step] step # 保存到JSON文件与ckpt文件一一对应 import json with open(f{self.ckpt_dir}/train_state_{epoch}_{step}.json, w) as f: json.dump(self.train_state, f) def load_train_state(self, ckpt_path): import json state_path ckpt_path.replace(.ckpt, .json) with open(state_path, r) as f: self.train_state json.load(f) return self.train_state #

断点恢复逻辑 ckpt_manager IncrementalCheckpointManager(ckpt_config, ./llama_ckpt) resume_ckpt ./llama_ckpt/ckpt_0_

ckpt # 待恢复的断点文件 if resume_ckpt: # 加载模型优化器参数 param_dict ms.load_checkpoint(resume_ckpt) ms.load_param_into_net(train_net, param_dict) # 加载训练状态 train_state ckpt_manager.load_train_state(resume_ckpt) start_epoch train_state[epoch] start_step train_state[step] # 恢复数据集迭代器位置 dataset ResumableDataset(raw_data, start_stepstart_step) else: start_epoch 0 start_step 0 dataset GeneratorDataset(raw_data, column_names[input_ids, labels]) #

训练循环含断点保存 for epoch in range(start_epoch,

: for step, (input_ids, labels) in enumerate(dataset): loss train_net(input_ids, labels) current_step start_step step 1 # 每1000步保存断点含训练状态 if current_step % 1000 0: ckpt_manager.save_checkpoint(train_net, epochepoch, step_numcurrent_step) ckpt_manager.save_train_state(epoch, current_step) # 效果断点恢复时间从2小时降至10分钟无重复训练步骤算力利用率提升20%

显存动态监控与自适应调整场景大模型训练过程中显存占用会随数据分布、模型迭代波动固定的 batch size 与重计算策略无法适配动态显存变化仍存在 OOM 风险。

MindSpore 技术实践利用 MindSpore 的Profiler实现显存实时监控结合预设阈值动态调整 batch size 与重计算层数确保显存占用稳定在安全区间from mindspore.profiler import Profiler import psutil #

显存监控函数 def monitor_gpu_memory(threshold

0.

: 监控GPU显存占用超过阈值返回True profiler Profiler(output_path./profiler) mem_info profiler.get_memory_info() used_ratio mem_info[used] / mem_info[total] profiler.analyse() return used_ratio threshold #

自适应调整策略 class AdaptiveTrainer: def init(self, train_net, init_batch_size

: self.train_net train_net self.batch_size init_batch_size self.max_batch_size 16 self.min_batch_size 4 def adjust_batch_size(self, is_over_threshold): if is_over_threshold and self.batch_size self.min_batch_size: self.batch_size - 2 print(f显存超限batch size调整为{self.batch_size}) elif not is_over_threshold and self.batch_size self.max_batch_size: self.batch_size 2 print(f显存充足batch size调整为{self.batch_size}) return self.batch_size #

集成到训练循环 adaptive_trainer AdaptiveTrainer(train_net) for epoch in range(start_epoch,

: dataset dataset.batch(adaptive_trainer.batch_size) for step, (input_ids, labels) in enumerate(dataset): loss train_net(input_ids, labels) # 每500步监控显存并调整 if step % 500 0: is_over monitor_gpu_memory() adaptive_trainer.adjust_batch_size(is_over) # 优化前后对比 | 指标 | 优化前 | 优化后 | |---------------------|--------|--------| | 单卡7B模型显存占用 | 75G | 45G | | 断点恢复耗时 | 120min | 10min | | OOM发生率 | 15% | 0% | | 训练吞吐量 | 22样本/秒 | 30样本/秒 |

告别迷茫，掌握“辶喿辶臿辶喿”的奥秘，开启效率新篇章！

核心内容摘要

奇米·黑夜之语：探寻暗夜中的奇幻低语

大模型分层显存优化混合精度张量重计算显存分片场景训练 LLaMA-7B 模型时单卡A100 80G直接加载全量参数会导致显存占用超 90%训练中极易触发 OOM传统混合精度训练仅优化数据类型无法解决大模型的中间激活值显存占用问题。

混合精度训练配置FP16BF16混合 amp_level O3 # 最高级混合精度优化 cast_type ms.float16 # 权重与激活值用FP16梯度用BF16 loss_scaler amp.DynamicLossScaler(scale_value2**16, scale_factor2, scale_window

#

显存分片策略按维度拆分大张量降低单张量显存占用 class TensorSlicer: def init(self, slice_dim1, slice_num

: self.slice_dim slice_dim self.slice_num slice_num self.slice_op ops.Split(axisslice_dim, output_numslice_num) def slice(self, tensor): return self.slice_op(tensor) def concat(self, tensor_list): return ops.Concat(axisself.slice_dim)(tensor_list) #

) return loss # 构建训练网络 llama_model nn.TransformerDecoder(num_layers32, hidden_size

# LLaMA-7B等效结构 train_net LLaMATrainNetwork(llama_model) train_net amp.build_train_network( train_net, optimizernn.AdamWeightDecay(train_net.trainable_params(), 1e-

, loss_scale_managerloss_scaler, amp_levelamp_level, cast_typecast_type ) # 效果LLaMA-7B单卡训练显存占用从75G降至45G激活值显存占比从40%降至15%

增量式断点续训全状态保存与精准恢复场景大模型训练周期长达数周断电、硬件故障等中断事件频发传统断点续训仅保存模型参数重启后需重新初始化优化器、重置数据迭代器导致重复训练 10%~20% 的 epoch算力浪费严重。

自定义全状态数据集记录迭代器位置 class ResumableDataset: def init(self, data, start_step

: self.data data self.start_step start_step self.total_steps len(data) def getitem(self, idx): return self.data[idx] def len(self): return self.total_steps - self.start_step #

断点恢复逻辑 ckpt_manager IncrementalCheckpointManager(ckpt_config, ./llama_ckpt) resume_ckpt ./llama_ckpt/ckpt_0_

训练循环含断点保存 for epoch in range(start_epoch,

显存动态监控与自适应调整场景大模型训练过程中显存占用会随数据分布、模型迭代波动固定的 batch size 与重计算策略无法适配动态显存变化仍存在 OOM 风险。

显存监控函数 def monitor_gpu_memory(threshold

: 监控GPU显存占用超过阈值返回True profiler Profiler(output_path./profiler) mem_info profiler.get_memory_info() used_ratio mem_info[used] / mem_info[total] profiler.analyse() return used_ratio threshold #

自适应调整策略 class AdaptiveTrainer: def init(self, train_net, init_batch_size

集成到训练循环 adaptive_trainer AdaptiveTrainer(train_net) for epoch in range(start_epoch,

17.C18起草视频最新版下载-17.C18起草视频最新版下载应用

📑 文章目录

🔥 热门优化文章

🛠️ 实用工具推荐

百度百家号客服电话人工服务

告别迷茫，掌握“辶喿辶臿辶喿”的奥秘，开启效率新篇章！

核心内容摘要

奇米·黑夜之语：探寻暗夜中的奇幻低语

大模型分层显存优化混合精度 张量重计算 显存分片场景训练 LLaMA-7B 模型时单卡A100 80G直接加载全量参数会导致显存占用超 90%训练中极易触发 OOM传统混合精度训练仅优化数据类型无法解决大模型的中间激活值显存占用问题。

混合精度训练配置FP16BF16混合 amp_level O3 # 最高级混合精度优化 cast_type ms.float16 # 权重与激活值用FP16梯度用BF16 loss_scaler amp.DynamicLossScaler(scale_value2**16, scale_factor2, scale_window

#

显存分片策略按维度拆分大张量降低单张量显存占用 class TensorSlicer: def __init__(self, slice_dim1, slice_num

: self.slice_dim slice_dim self.slice_num slice_num self.slice_op ops.Split(axisslice_dim, output_numslice_num) def slice(self, tensor): return self.slice_op(tensor) def concat(self, tensor_list): return ops.Concat(axisself.slice_dim)(tensor_list) #

) return loss # 构建训练网络 llama_model nn.TransformerDecoder(num_layers32, hidden_size

# LLaMA-7B等效结构 train_net LLaMATrainNetwork(llama_model) train_net amp.build_train_network( train_net, optimizernn.AdamWeightDecay(train_net.trainable_params(), 1e-

, loss_scale_managerloss_scaler, amp_levelamp_level, cast_typecast_type ) # 效果LLaMA-7B单卡训练显存占用从75G降至45G激活值显存占比从40%降至15%

增量式断点续训全状态保存与精准恢复场景大模型训练周期长达数周断电、硬件故障等中断事件频发传统断点续训仅保存模型参数重启后需重新初始化优化器、重置数据迭代器导致重复训练 10%~20% 的 epoch算力浪费严重。

自定义全状态数据集记录迭代器位置 class ResumableDataset: def __init__(self, data, start_step

: self.data data self.start_step start_step self.total_steps len(data) def __getitem__(self, idx): return self.data[idx] def __len__(self): return self.total_steps - self.start_step #

断点恢复逻辑 ckpt_manager IncrementalCheckpointManager(ckpt_config, ./llama_ckpt) resume_ckpt ./llama_ckpt/ckpt_0_

训练循环含断点保存 for epoch in range(start_epoch,

显存动态监控与自适应调整场景大模型训练过程中显存占用会随数据分布、模型迭代波动固定的 batch size 与重计算策略无法适配动态显存变化仍存在 OOM 风险。

显存监控函数 def monitor_gpu_memory(threshold

: 监控GPU显存占用超过阈值返回True profiler Profiler(output_path./profiler) mem_info profiler.get_memory_info() used_ratio mem_info[used] / mem_info[total] profiler.analyse() return used_ratio threshold #

自适应调整策略 class AdaptiveTrainer: def __init__(self, train_net, init_batch_size

集成到训练循环 adaptive_trainer AdaptiveTrainer(train_net) for epoch in range(start_epoch,

17.C18起草视频最新版下载-17.C18起草视频最新版下载应用

📑 文章目录

🔥 热门优化文章

🛠️ 实用工具推荐

相关优化文章 推荐

百度百家号客服电话人工服务

大模型分层显存优化混合精度张量重计算显存分片场景训练 LLaMA-7B 模型时单卡A100 80G直接加载全量参数会导致显存占用超 90%训练中极易触发 OOM传统混合精度训练仅优化数据类型无法解决大模型的中间激活值显存占用问题。

显存分片策略按维度拆分大张量降低单张量显存占用 class TensorSlicer: def init(self, slice_dim1, slice_num

自定义全状态数据集记录迭代器位置 class ResumableDataset: def init(self, data, start_step

: self.data data self.start_step start_step self.total_steps len(data) def getitem(self, idx): return self.data[idx] def len(self): return self.total_steps - self.start_step #

自适应调整策略 class AdaptiveTrainer: def init(self, train_net, init_batch_size

相关优化文章推荐