首页速度优化少女身心探索：16岁，身体的秘密与成长的绽放

网站优化

9.成长短视频：捕捉灵感，记录蜕变，点亮人生无限可能

省电之王大战：究竟““BBBBBBB”还是“BBBBBBBB”才是真正的省电之王？

十一月新出KTV最新视频：点燃你的音乐狂欢夜！

2026-06-12 09:26:18

阅读时长:6分钟

562次阅读

核心内容摘要

乡间心事：一地鸡毛下的温情与成长

详尽记录从环境配置到脚本执行的每一步这是一篇完全基于真实工程实践的 verl 框架部署手记。

不讲抽象概念不堆技术术语只记录从零开始、在一块老旧 Tesla P40 GPU 上把 verl 跑起来的全部细节——包括哪些命令必须按顺序执行、哪些文件要手动修改、哪些报错看似相似实则根源不同、哪些坑踩了三次才绕过去。

如果你正面对一个“能跑但总崩”的 verl 环境或者刚 clone 下来却卡在 import 阶段这篇文章里的每一行命令、每一个路径、每一次替换都是可直接复用的实操快照。

为什么是 Tesla P40又为什么非得跑 verl先说清楚前提这不是一份面向生产集群的部署指南而是一份单卡、低配、强约束下的可行性验证记录。

硬件是 2016 年发布的 Tesla P4024GB 显存CUDA Compute Capability

1操作系统是 Ubuntu

2

04目标模型是 Qwen

5-

5B-Instruct参数量约 5 亿训练数据是 GSM8K数学推理题集。

选择它不是因为推荐而是因为现实——很多开发者手头没有 A100/H100甚至没有 RTX 4090只有一张被遗忘在服务器角落的老卡。

而 verl 作为专为 LLM 后训练设计的 RL 框架其价值恰恰在于让中小规模团队也能尝试 PPO、DPO 等高级对齐方法。

所以本文不追求“最优性能”只回答一个朴素问题在资源受限条件下verl 能不能动起来怎么动答案是能但需要绕开三类硬性限制——CUDA 版本兼容性、数据类型支持边界、显存资源分配策略。

下面所有步骤都围绕这三点展开。

环境配置严格顺序不可跳过官方文档默认假设你使用较新 GPU如 A100和 CUDA

x但 Tesla P40 的硬件能力决定了我们必须回退到 CUDA

1

8 cuDNN

8.

7 这一组合。

任何顺序错乱或版本混用都会导致后续 import 失败或运行时崩溃。

1 基础依赖安装顺序表步骤组件版本关键说明1CUDA

1

8必须用runfile安装路径固定为/usr/local/cuda-

1

8不可覆盖系统默认 cuda 软链接否则 pyTorch 会加载错版本2cuDNN

8.

7 for CUDA

x解压后需手动拷贝头文件与库文件至/usr/local/cuda-

1

8/对应目录不能仅靠 LD_LIBRARY_PATH 临时指定vLLM 编译阶段会硬检查路径3Python

10创建独立 conda 环境verl-envPython

11 会导致 apex 编译失败因部分 C 扩展未适配新 ABI4PyTorch

2.

0cu118使用 PyTorch 官方 cu118 镜像源安装禁用 pip install torch[rocm]P40 不支持 ROCm5Apexcommita5e7f3b2024年中必须加--config-settings --build-option--cpp_ext --config-settings --build-option--cuda_extMAX_JOB32 是为了加速编译非必需但强烈建议6verlgit clone 最新版2025年9月8日先执行bash scripts/install_vllm_sglang_mcore.sh安装 vLLM再pip install --no-deps -e .--no-deps是关键避免重装已手动配置好的 torch/apex重要提醒所有安装命令均在verl-env环境中执行。

每次新开终端后请先运行conda activate verl-env。

不要试图用pip install verl它会拉取 PyPI 上的旧版

0.

x缺少 PPO 训练主入口。

2 验证环境是否就绪进入 Python 交互环境后逐条执行以下检查# 检查 CUDA 可见性与版本 import torch print(torch.version) # 应输出

2.

0cu118 print(torch.cuda.is_available()) # 必须为 True print(torch.version.cuda) # 应输出

1

8 # 检查 Apex 是否生效 import apex print(apex.version) # 应输出类似

2.

0 # 检查 verl 导入与版本 import verl print(verl.version) # 应输出类似

0.

3.

dev0git commit hash若任一检查失败请立即返回上一步重新安装不要继续向下走。

尤其注意torch.cuda.is_available()返回 False 通常意味着 CUDA 路径未正确注入此时需检查~/.bashrc中是否添加了export CUDA_HOME/usr/local/cuda-

1

8 export PATH$CUDA_HOME/bin:$PATH export LD_LIBRARY_PATH$CUDA_HOME/lib64:$LD_LIBRARY_PATH

模型与数据准备轻量化适配是核心verl 默认配置面向大模型与多卡训练而我们只有一块 P40。

因此必须做两件事降低计算密度改数据类型与 attention、压缩数据体积选小模型、裁剪数据集。

1 修改 verl 源码以适配 P40 硬件能力打开 verl 工程根目录执行全局搜索注意带双引号grep -r Bfloat16 . --include.py grep -r flash_attention_2 . --include.py将所有匹配结果中的字符串替换为Bfloat16→float32flash_attention_2→eager必须带双引号替换否则会误改变量名或注释内容。

常见需修改的文件包括verl/trainer/ppo_trainer.pyverl/data_provider/dataset.pyverl/actor_rollout/vllm_rollout.pyverl/utils/config.py为什么是 float32 而非 float16Tesla P40 的 SM

1 架构原生不支持 FP16/BF16 计算单元。

强行启用会触发 CUDA kernel 编译失败。

float32 虽然显存占用翻倍但它是 P40 唯一稳定支持的浮点格式。

别担心速度——P40 的 FP32 算力达 12 TFLOPS足够支撑

5B 模型的单步 PPO 更新。

2 数据预处理GSM8K 到 verl 格式GSM8K 原始数据是 HuggingFace Dataset 格式.arrowverl 要求输入为 Parquet 文件并且字段需符合 RL 训练结构prompt,response,reward。

分三步操作1下载并转换为 Parquet# 创建数据目录 mkdir -p $HOME/data/gsm8k/raw cd $HOME/data/gsm8k/raw # 使用 hf-mirror 加速下载国内推荐 hf download openai/gsm8k --repo-type dataset --local-dir . # 转换为 Parquet保存在同级 fmt_parquet 目录 python -c from datasets import load_from_disk ds load_from_disk(.) ds[train].to_parquet(../fmt_parquet/train.parquet) ds[test].to_parquet(../fmt_parquet/test.parquet) 2转换为 verl RL 格式编辑verl/examples/data_preprocess/gsm8k.py修改以下两处# 原始 data_source path/to/gsm8k local_dir path/to/save # 修改为 data_source $HOME/data/gsm8k/fmt_parquet local_dir $HOME/data/gsm8k/fmt_rl然后运行cd verl/examples/data_preprocess python gsm8k.py生成的train.parquet和test.parquet将位于$HOME/data/gsm8k/fmt_rl/其 schema 包含prompt,chosen,rejected,reward_chosen,reward_rejected字段符合 verl PPO 输入要求。

3 模型下载Qwen

5-

5B-Instruct该模型权重约

1GB适合 P40 显存。

使用huggingface-hub工具下载# 确保已安装 pip install huggingface-hub # 下载到本地 hf download Qwen/Qwen

5-

5B-Instruct --local-dir $HOME/models/Qwen

5-

5B-Instruct注意路径一致性后续训练脚本中actor_rollout_ref.model.path和critic.model.path必须指向此绝对路径不能用~符号hydra 配置解析器不展开。

训练脚本执行参数即命运官方 Quick Start 脚本在 P40 上会直接 OOM。

以下是经过 7 轮调试后确认可用的最小可行配置verl-ppo-gsm8k.sh#!/bin/bash export HYDRA_FULL_ERROR1 export VLLM_DTYPEfloat32 export PYTORCH_CUDA_ALLOC_CONFmax_split_size_mb:128 PYTHONUNBUFFERED1 TRITON_MAX_SHARED_MEMORY49152 python3 -m verl.trainer.main_ppo \ data.train_files$HOME/data/gsm8k/fmt_rl/train.parquet \ data.val_files$HOME/data/gsm8k/fmt_rl/test.parquet \ data.train_batch_size1 \ data.max_prompt_length256 \ data.max_response_length256 \ actor_rollout_ref.model.path$HOME/models/Qwen

5-

5B-Instruct \ actor_rollout_ref.actor.optim.lr1e-6 \ actor_rollout_ref.actor.ppo_mini_batch_size1 \ actor_rollout_ref.actor.ppo_micro_batch_size_per_gpu1 \ actor_rollout_ref.rollout.namevllm \ actor_rollout_ref.rollout.log_prob_micro_batch_size_per_gpu1 \ actor_rollout_ref.rollout.tensor_model_parallel_size1 \ actor_rollout_ref.rollout.gpu_memory_utilization

3 \ actor_rollout_ref.rollout.max_num_batched_tokens512 \ actor_rollout_ref.rollout.enable_chunked_prefillfalse \ actor_rollout_ref.fsdp_config.cpu_offloadtrue \ actor_rollout_ref.fsdp_config.offload_paramstrue \ actor_rollout_ref.rollout.max_num_seqs1 \ actor_rollout_ref.ref.log_prob_micro_batch_size_per_gpu1 \ critic.optim.lr1e-5 \ critic.model.path$HOME/models/Qwen

5-

5B-Instruct \ critic.ppo_micro_batch_size_per_gpu1 \ algorithm.kl_ctrl.kl_coef

001 \ trainer.loggerconsole \ trainer.val_before_trainFalse \ trainer.n_gpus_per_node1 \ trainer.nnodes1 \ trainer.save_freq10 \ trainer.test_freq10 \ trainer.total_epochs2 21 | tee $HOME/logs/verl_demo.log

1 关键参数解读为什么这样设参数值作用不设的后果data.train_batch_size11单步训练仅处理 1 条 prompt-response 对设为 2 会触发OutOfResources: shared memoryactor_rollout_ref.rollout.gpu_memory_utilization

0.

3

3强制 vLLM 仅使用 30% 显存默认

9 会立即 OOMactor_rollout_ref.rollout.max_num_batched_tokens512512限制 vLLM 推理时最大 token 总数必须 ≥max_prompt_length max_response_length否则启动失败actor_rollout_ref.fsdp_config.cpu_offloadtruetrue将 FSDP 的 optimizer state 卸载到 CPU不开启则显存峰值超 24GBTRITON_MAX_SHARED_MEMORY4915249152显式设置 Triton 共享内存上限为 48MBP40 硬件限制为 48KB此值单位为 KB执行前必做创建日志目录mkdir -p $HOME/logs确保train.parquet和test.parquet路径可读运行chmod x verl-ppo-gsm8k.sh赋予执行权限

常见报错与精准定位方案所有报错均来自真实运行过程。

这里不列错误堆栈只给现象→根因→动作三段式解法。

1 现象RuntimeError: CUDA error: no kernel image is available for execution on the device根因PyTorch 或 CUDA 版本与 P40 架构不匹配如 CUDA

x 编译的 torch 在 P40 上运行动作nvcc --version确认 CUDA 版本为

1

8python -c import torch; print(torch.version.cuda)确认 torch 编译于 CUDA

1

8若不符彻底卸载torch和torchaudio重装 cu118 版本

2 现象ValueError: Bfloat16 is only supported on GPUs with compute capability of at least

0根因verl 源码中硬编码了Bfloat16未做设备能力检测动作执行全文本替换sed -i s/Bfloat16/float32/g $(find . -name *.py)注意必须在 verl 工程根目录执行且替换后需重新pip install --no-deps -e .

3 现象triton.runtime.errors.OutOfResources: out of resource: shared memory根因FlashAttention-2 kernel 需要 ≥80KB 共享内存P40 仅提供 48KB或 batch size 过大动作先执行sed -i s/flash_attention_2/eager/g $(find . -name *.py)再检查训练脚本中max_num_batched_tokens是否 ≤512train_batch_size是否为 1若仍报错追加环境变量export TRITON_CACHE_DIR/tmp/triton_cache避免缓存污染

4 现象ModuleNotFoundError: No module named vllm根因scripts/install_vllm_sglang_mcore.sh执行失败或未激活verl-env动作进入verl/scripts/目录手动运行bash install_vllm_sglang_mcore.sh观察最后是否输出Successfully installed vllm-...若失败检查nvidia-smi是否可见 GPUgcc --version是否 ≥

7.

56.

总结这一步我们到底走通了什么这不是一篇教你“如何优雅地部署 verl”的文章而是一份在物理限制下强行打通数据链路的工程日志。

我们确认了以下事实verl 框架本身可在 Tesla P40CUDA

1

8 Python

10上完成 import 与基础初始化通过源码级修改Bfloat16 → float32flash_attention_2 → eager可绕过硬件能力墙Qwen

5-

5B-Instruct 模型能在 P40 上完成 PPO 的完整训练循环至少前 10 步GSM8K 数据经 verl 标准化后可被正确加载、分片、构建 RL batch所有关键参数batch size、memory utilization、token limit均有明确阈值边界当然它仍有局限训练速度慢单步约 7 秒、无法跑满 epoch第 9 步后再次 OOM、不支持多卡扩展。

但这些不是 verl 的缺陷而是 P40 的物理事实。

真正的价值在于——你拿到了一把钥匙能亲手打开 LLM 强化学习的大门哪怕门后只有一盏微光。

下一步你可以尝试更小的模型如 Phi-3-mini-4k-instruct进一步压低显存将trainer.total_epochs2改为1专注验证单轮训练逻辑查看$HOME/logs/verl_demo.log中的 reward 曲线确认 KL 散度是否下降路已经铺到这儿剩下的交给你去跑。