首页速度优化探索韩流魅力：韩国精品一区二区，不止于视觉的盛宴

网站优化

听见五月，遇见婷婷：一场关于青春与梦想的感官盛宴

《召唤魅魔竟是妈妈来了第二季》：当反差萌遇上爆笑日常，这谁顶得住啊！

2026-06-09 23:04:42

阅读时长:5分钟

562次阅读

核心内容摘要

公公与儿媳妇日本伦理故事,家庭矛盾,情感纠葛,文化冲突,人性探讨

下载安装CodeArts先去下载CodeArts代码智能体_懂你的编码专家-华为云下载后安装启动CodeArts安装后启动启动后需要登录华为云账户且需要订购CodeArts当然当前是测试所以免费。

可以勾选自动续费官方说自动续费也是免费。

启动后界面如下修改中文界面未完成老规矩先修改成中文界面没有找到修改的地方测试老规矩先写一个雷电小游戏游戏的代码一次过这是值得肯定的。

但是效果要比kiro差一些。

让它写个大点的项目帮我写一个ernie的

3b模型的微调代码当前百度飞桨提供的ernie

5 3b模型的官方微调代码需要h100或a100显卡但是我只有v100显卡请帮我重写一个或者把官方的移植一下以便支持v100显卡。

项目放置到ernie目录。

发现它从我的硬盘寻找ernie

5的官方微调代码。

这一点可以说方便了用户但是它为什么不到网上去找呢还是有利有弊的。

停止后重新发任务问题可以变成这样如何在 V100 上关闭 FlashAttention 并适配 GQA任务把生成这两个文件放置到ernie目录里并写上中文readme搞定ERNIE 模型 V100 GPU 适配指南本项目提供了将 ERNIE 模型从 H100/A100 GPU 适配到 V100 GPU 的完整指南和配置。

文件说明run_finetune.py- PaddleNLP 官方 ERNIE 模型微调脚本V100_Adaptation_Guide.md- 详细的 V100 适配指南英文版README.md- 本文件项目说明中文版核心问题官方 ERNIE 微调代码是为 H100/A100 GPU 设计的主要依赖以下特性特性H100/A100V100解决方案FlashAttention✅ 支持❌ 不支持禁用 FlashAttentionBF16 精度✅ 支持❌ 不支持使用 FP16 替代GQA分组查询注意力✅ 原生支持⚠️ 需适配确保 FP16 兼容性显存40GB/80GB32GB减小批次大小使用 LoRA 快速开始

V100 微调命令python -m paddle.distributed.launch \ --gpus 0,1,2,3 \ run_finetune.py \ --model_name_or_path ERNIE-

5-

3B \ --dataset_name_or_path /path/to/dataset \ --fp16 true \ --fp16_opt_level O1 \ --bf16 false \ --flash_mask false \ --per_device_train_batch_size 1 \ --gradient_accumulation_steps 16 \ --recompute true \ --sharding stage2 \ --zero_padding true \ --greedy_zero_padding true \ --do_train true \ --output_dir ./output/ernie_03b_v

关键参数说明参数值说明--fp16 truetrue启用 FP16 混合精度训练--fp16_opt_level O1O1FP16 优化级别O1 更稳定--bf16 falsefalse禁用 BF16V100 不支持--flash_mask falsefalse禁用 FlashAttentionV100 不支持--per_device_train_batch_size 11每设备批次大小适应 32GB 显存--gradient_accumulation_steps 1616梯度累积步数保持有效批次大小--recompute truetrue启用重计算节省显存--sharding stage2stage2参数切片并行进一步节省显存--zero_padding truetrue零填充数据流减少冗余计算--greedy_zero_padding truetrue贪心零填充进一步优化性能优化建议方案一全量微调Full Fine-tuning适用于有足够显存的情况4×V100 128GB 总显存python -m paddle.distributed.launch \ --gpus 0,1,2,3 \ run_finetune.py \ --model_name_or_path ERNIE-

5-

3B \ --dataset_name_or_path /path/to/dataset \ --fp16 true \ --fp16_opt_level O1 \ --flash_mask false \ --per_device_train_batch_size 1 \ --gradient_accumulation_steps 16 \ --recompute true \ --sharding stage2 \ --zero_padding true \ --greedy_zero_padding true \ --do_train true \ --output_dir ./output/ernie_03b_v100_full预计显存使用: 每卡 ~

GB方案二LoRA 微调推荐适用于显存受限或需要快速实验的情况python -m paddle.distributed.launch \ --gpus 0,1,2,3 \ run_finetune.py \ --model_name_or_path ERNIE-

5-

3B \ --dataset_name_or_path /path/to/dataset \ --fp16 true \ --fp16_opt_level O1 \ --flash_mask false \ --lora true \ --lora_rank 8 \ --lora_alpha 16 \ --lora_dropout

05 \ --per_device_train_batch_size 2 \ --gradient_accumulation_steps 8 \ --zero_padding true \ --greedy_zero_padding true \ --do_train true \ --output_dir ./output/ernie_03b_v100_lora预计显存使用: 每卡 ~

GB方案三单卡微调最小资源适用于只有单张 V100 的情况python run_finetune.py \ --model_name_or_path ERNIE-

5-

3B \ --dataset_name_or_path /path/to/dataset \ --fp16 true \ --fp16_opt_level O1 \ --flash_mask false \ --lora true \ --lora_rank 4 \ --lora_alpha 8 \ --per_device_train_batch_size 1 \ --gradient_accumulation_steps 32 \ --recompute true \ --sharding stage3 \ --zero_padding true \ --greedy_zero_padding true \ --do_train true \ --output_dir ./output/ernie_03b_v100_single预计显存使用: 单卡 ~

GB

常见问题排查问题 1显存不足OOM错误信息:CUDA out of memory解决方案# 减小批次大小 --per_device_train_batch_size 1 # 增加梯度累积 --gradient_accumulation_steps 32 # 启用更激进的参数切片 --sharding stage3 # 使用更小的 LoRA rank --lora_rank 4问题 2训练损失变为 NaN错误信息: Loss becomes NaN during training解决方案# 使用 O1 而不是 O2 --fp16_opt_level O1 # 增加损失缩放 --scale_loss

2

0 # 启用梯度裁剪 --max_grad_norm

0问题 3训练速度慢错误信息: Training is very slow解决方案# 启用零填充 --zero_padding true --greedy_zero_padding true # 增加批次大小如果显存允许 --per_device_train_batch_size 2 # 减少梯度累积 --gradient_accumulation_steps 8问题 4GQA 不工作错误信息: Errors related to grouped query attention解决方案# 在代码中验证 GQA 支持 print(fModel supports GQA: {hasattr(model.config, num_key_value_heads)}) # 如果不支持回退到标准注意力 if not hasattr(model.config, num_key_value_heads): model.config.num_key_value_heads model.config.num_attention_heads 性能预期训练速度估算配置批次大小GPU 数量速度tokens/秒全量微调1×164~8,000全量微调1×324~6,500LoRA 微调2×84~12,000显存使用估算配置每卡显存总显存4 卡全量微调 FP16~28GB~112GB全量微调 FP16 重计算~24GB~96GBLoRA FP16~18GB~72GBLoRA FP16 重计算~14GB~56GB✅ 训练前检查清单环境检查验证 V100 GPU 可用性和驱动版本安装 PaddlePaddle 和 PaddleNLP下载 ERNIE-

5-

3B 模型权重准备训练数据集配置检查禁用 FlashAttention (--flash_mask false)使用 FP16 而非 BF16 (--fp16 true,--bf16 false)为 32GB 显存设置合适的批次大小启用梯度累积考虑使用 LoRA 提高显存效率启用零填充提高效率测试模型加载和前向传播验证 GQA 配置训练监控监控 GPU 显存使用观察损失值是否出现 NaN检查训练速度验证检查点保存监控评估指标相关资源官方文档PaddleNLP: https://github.com/PaddlePaddle/PaddleNLPPaddleNLP 微调文档:llm/docs/finetune.mdPaddlePaddle 文档: https://www.paddlepaddle.org.cn/GPU 规格NVIDIA V100: https://www.nvidia.com/en-us/data-center/v100/NVIDIA A100: https://www.nvidia.com/en-us/data-center/a100/NVIDIA H100: https://www.nvidia.com/en-us/data-center/h100/相关论文FlashAttention: https://arxiv.org/abs/

2

14135GQA (Grouped Query Attention): https://arxiv.org/abs/

2

13245LoRA: https://arxiv.org/abs/

2

09685 详细文档完整的英文适配指南请查看V100_Adaptation_Guide.md该文档包含GPU 架构详细对比代码修改示例自定义注意力实现性能优化技巧验证和测试脚本使用示例示例 1基础微调# 最小化配置适用于快速测试 python run_finetune.py \ --model_name_or_path ERNIE-

5-

3B \ --dataset_name_or_path ./data \ --fp16 true \ --flash_mask false \ --per_device_train_batch_size 1 \ --gradient_accumulation_steps 16 \ --do_train true \ --output_dir ./output/test示例 2生产环境配置# 完整配置适用于生产环境 python -m paddle.distributed.launch \ --gpus 0,1,2,3 \ run_finetune.py \ --model_name_or_path ERNIE-

5-

3B \ --tokenizer_name_or_path ERNIE-

5-

3B \ --dataset_name_or_path ./data \ --dataset_split train \ --max_length 2048 \ --zero_padding true \ --greedy_zero_padding true \ --do_train true \ --do_eval true \ --output_dir ./output/ernie_03b_production \ --logging_steps 10 \ --save_steps 500 \ --eval_steps 500 \ --fp16 true \ --fp16_opt_level O1 \ --bf16 false \ --flash_mask false \ --per_device_train_batch_size 1 \ --per_device_eval_batch_size 1 \ --gradient_accumulation_steps 16 \ --recompute true \ --sharding stage2 \ --lora true \ --lora_rank 8 \ --lora_alpha 16 \ --lora_dropout

05 \ --num_train_epochs 3 \ --learning_rate 5e-5 \ --warmup_ratio

1 \ --weight_decay

01 \ --evaluation_strategy steps \ --save_strategy steps \ --save_total_limit 3示例 3自定义数据集# 使用自定义 JSON 格式数据集 python run_finetune.py \ --model_name_or_path ERNIE-

5-

3B \ --dataset_name_or_path ./custom_data \ --fp16 true \ --flash_mask false \ --per_device_train_batch_size 1 \ --gradient_accumulation_steps 16 \ --do_train true \ --output_dir ./output/custom数据集格式示例 (custom_data/train.json):[ { src: 用户的问题或输入, tgt: 模型的期望回答 }, { src: 另一个问题, tgt: 对应的回答 } ] 验证脚本测试 V100 兼容性#!/usr/bin/env python 测试 V100 兼容性 import paddle from paddlenlp.transformers import AutoModelForCausalLM # 加载模型 model AutoModelForCausalLM.from_pretrained(ERNIE-

5-

3B) # 测试 FP16 model model.to(dtypepaddle.float

print(✓ FP16 转换成功) # 测试前向传播 dummy_input paddle.randint(0, 1000, (1,

) output model(dummy_input) print(✓ 前向传播成功) # 测试 FlashAttention 已禁用 assert model.config.use_flash_attention False print(✓ FlashAttention 已禁用) print(\n✓ 所有 V100 兼容性测试通过)训练监控#!/usr/bin/env python 训练监控 import paddle def monitor_training(loss, step): 监控训练过程 if step % 100 0: gpu_mem paddle.device.cuda.max_memory_allocated() / 1024**3 print(fStep {step}: Loss{loss:.4f}, GPU Memory{gpu_mem:.2f}GB) 技术支持如有问题请参考PaddleNLP GitHub Issues: https://github.com/PaddlePaddle/PaddleNLP/issuesPaddlePaddle 论坛: https://www.paddlepaddle.org.cn/详细英文指南:V100_Adaptation_Guide.md 许可证本项目基于 PaddleNLP 的 Apache

听见五月，遇见婷婷：一场关于青春与梦想的感官盛宴

核心内容摘要

公公与儿媳妇日本伦理故事,家庭矛盾,情感纠葛,文化冲突,人性探讨

3b模型的微调代码当前百度飞桨提供的ernie

5

3b模型的官方微调代码需要h100或a100显卡但是我只有v100显卡请帮我重写一个或者把官方的移植一下以便支持v100显卡。

5的官方微调代码。

V100 微调命令python -m paddle.distributed.launch \ --gpus 0,1,2,3 \ run_finetune.py \ --model_name_or_path ERNIE-

5-

5-

GB方案二LoRA 微调推荐适用于显存受限或需要快速实验的情况python -m paddle.distributed.launch \ --gpus 0,1,2,3 \ run_finetune.py \ --model_name_or_path ERNIE-

5-

3B \ --dataset_name_or_path /path/to/dataset \ --fp16 true \ --fp16_opt_level O1 \ --flash_mask false \ --lora true \ --lora_rank 8 \ --lora_alpha 16 \ --lora_dropout

05 \ --per_device_train_batch_size 2 \ --gradient_accumulation_steps 8 \ --zero_padding true \ --greedy_zero_padding true \ --do_train true \ --output_dir ./output/ernie_03b_v100_lora预计显存使用: 每卡 ~

GB方案三单卡微调最小资源适用于只有单张 V100 的情况python run_finetune.py \ --model_name_or_path ERNIE-

5-

GB

0 # 启用梯度裁剪 --max_grad_norm

5-

14135GQA (Grouped Query Attention): https://arxiv.org/abs/

13245LoRA: https://arxiv.org/abs/

5-

5-

3B \ --tokenizer_name_or_path ERNIE-

5-

05 \ --num_train_epochs 3 \ --learning_rate 5e-5 \ --warmup_ratio

1 \ --weight_decay

01 \ --evaluation_strategy steps \ --save_strategy steps \ --save_total_limit 3示例 3自定义数据集# 使用自定义 JSON 格式数据集 python run_finetune.py \ --model_name_or_path ERNIE-

5-

5-

3B) # 测试 FP16 model model.to(dtypepaddle.float

print(✓ FP16 转换成功) # 测试前向传播 dummy_input paddle.randint(0, 1000, (1,

0 许可证。

测试环境: PaddleNLP 最新版本, ERNIE-

5-

3B, NVIDIA V100 32GB

9·1免费破解版安装下载-9·1免费破解版安装下载应用

📑 文章目录

🔥 热门优化文章

🛠️ 实用工具推荐

相关优化文章 推荐

百度百家号客服电话人工服务

相关优化文章推荐