首页速度优化数据中台建设中的数据湖仓一体架构实践

网站优化

SpringBoot实战：3种方式读取resources目录文件并实现下载（附完整代码）

S-GRec Personalized Semantic-Aware Generative Recommendation with Asymmetric Advantage

Heygem能否连续工作？多任务队列机制揭秘

2026-06-08 18:55:33

阅读时长:5分钟

562次阅读

核心内容摘要

SciToolAgent：大模型+知识图谱打造科研自动化神器，带你轻松搞定复杂工作流

ms-swift初学者指南快速掌握大模型微调技巧

为什么你需要一个微调框架——从“想试”到“能用”的关键一步你是不是也经历过这样的场景看到一篇关于Qwen

2.

B-Instruct的评测心里一动“这模型真不错要是能按我们业务需求微调一下就好了”可转头打开Hugging Face文档密密麻麻的Trainer参数、DeepSpeed配置、LoRA初始化逻辑……还没写第一行代码就已经在环境报错和CUDA OOM中迷失了方向这不是你的问题。

大模型微调本不该是一场和底层框架的拉锯战。

ms-swiftScalable lightWeight Infrastructure for Fine-Tuning正是为解决这个痛点而生——它不是另一个需要你从零搭积木的训练库而是一个开箱即用、覆盖“准备→训练→推理→部署→评测”全链路的微调操作系统。

它不强迫你成为分布式系统专家也不要求你手写数据预处理Pipeline它把600文本模型、300多模态模型的适配工作都做完了你只需要告诉它“我想用Qwen

2.

B-Instruct基于这500条客服对话教它更懂我们行业的术语。

”本文就是为你写的第一份真正友好的ms-swift上手指南。

不讲抽象架构不堆技术名词只聚焦三件事怎么在10分钟内跑通第一个LoRA微调任务微调完的模型怎么立刻用起来不用等合并、不用改代码遇到常见卡点时一句命令就能解决全程基于单卡RTX 3090实测所有命令可直接复制粘贴运行。

三步极简入门10分钟完成一次真实微调别被“微调”两个字吓住。

在ms-swift里它和运行一个Python脚本一样直接。

我们以最典型的**指令监督微调SFT**为例目标是让Qwen

2.

B-Instruct学会回答“你是谁”这类自我认知问题——这是验证微调是否生效最快的方式。

1 环境准备两行命令搞定# 创建独立环境推荐Python

10 conda create -n swift-env python

10 conda activate swift-env # 一键安装ms-swift全功能套件含vLLM、LMDeploy等加速后端 pip install ms-swift[all] -U -i https://pypi.tuna.tsinghua.edu.cn/simple小贴士如果你用的是国产显卡如昇腾NPU或MacMPSms-swift同样支持安装时加--no-deps后单独安装对应驱动即可无需额外配置。

2 执行微调一条命令自动下载、加载、训练CUDA_VISIBLE_DEVICES0 \ swift sft \ --model Qwen/Qwen

2.

B-Instruct \ --train_type lora \ --dataset AI-ModelScope/alpaca-gpt4-data-zh#500 \ AI-ModelScope/alpaca-gpt4-data-en#500 \ swift/self-cognition#500 \ --torch_dtype bfloat16 \ --num_train_epochs 1 \ --per_device_train_batch_size 1 \ --learning_rate 1e-4 \ --lora_rank 8 \ --lora_alpha 32 \ --target_modules all-linear \ --gradient_accumulation_steps 16 \ --eval_steps 50 \ --save_steps 50 \ --output_dir output \ --system You are a helpful assistant. \ --max_length 2048这段命令做了什么我们用大白话拆解--model Qwen/Qwen

2.

B-Instruct告诉ms-swift“我要微调这个模型”它会自动从魔搭ModelScope下载完整权重约14GB无需你手动找链接。

--train_type lora选择轻量微调方式只训练新增的少量参数约10MB显存占用从22GB降到9GBRTX 3090轻松跑满。

--dataset ...#500指定三个数据集每个只取前500条样本。

swift/self-cognition是专为“自我认知”设计的数据集包含类似“你是谁”“你由哪家公司研发”等高质量问答对。

--lora_rank 8和--lora_alpha 32LoRA的核心超参不用纠结理论记住这个组合在7B模型上效果稳定、收敛快。

--gradient_accumulation_steps 16因为单卡batch size只能设为1用梯度累积模拟更大的批量保证训练稳定性。

运行后你会看到清晰的进度条和实时指标Train: 100%|██████████| 873/873 [09:3400:00,

69it/s] [INFO:swift] Saving model checkpoint to output/checkpoint-873 [INFO:swift] last_model_checkpoint: output/checkpoint-873关键结果训练结束后output/checkpoint-873文件夹里就是你的专属微调模型——它不是一个完整模型而是LoRA增量权重几个.safetensors文件体积小、易传输、可叠加。

微调完立刻用两种零门槛推理方式很多人以为微调完必须先“合并权重”才能用其实这是个误区。

ms-swift支持原生LoRA推理无需合并、无需导出微调结束下一秒就能对话。

1 方式一交互式命令行最适合调试CUDA_VISIBLE_DEVICES0 \ swift infer \ --adapters output/checkpoint-873 \ --stream true \ --temperature 0 \ --max_new_tokens 2048执行后你会进入一个类似ChatGPT的终端界面你是谁我是通义千问Qwen

5由通义实验室研发的大语言模型。

我擅长回答问题、创作文字比如写故事、写公文、写邮件、写剧本、逻辑推理、编程等等还能表达观点玩游戏等。

注意看--adapters指向的是刚才生成的checkpoint文件夹ms-swift会自动读取其中的args.json还原出模型路径、system提示词、tokenizer等全部配置——你完全不用重复输入--model或--system。

2 方式二Web UI界面零代码拖拽即用swift web-ui浏览器打开http://localhost:7860你会看到一个简洁的图形界面左侧选择模型自动列出本地已下载的Qwen

2.

B-Instruct中间上传LoRA点击“选择适配器”选中output/checkpoint-873文件夹右侧开始聊天输入“你好”模型立刻用微调后的能力回复这个UI不只是玩具。

它内置了vLLM加速引擎响应速度比原生PyTorch快3倍以上还支持多轮对话上下文管理、历史记录导出、系统提示词动态切换——团队内部快速验证效果用它就够了。

超实用技巧新手必知的5个避坑锦囊刚上手时有些细节不注意就会卡半天。

这些是我踩过坑后

总结的“保命技巧”每一条都来自真实生产环境。

1 数据集格式错了用一行命令自动修复你自己的业务数据可能是CSV或JSONL格式但ms-swift默认期望的是Hugging Face Dataset格式。

别急着写转换脚本——ms-swift自带校验和修复工具# 假设你的数据在 data/my_qa.jsonl每行是 {query: ..., response: ...} swift dataset convert \ --input_path data/my_qa.jsonl \ --output_path data/my_qa_converted \ --format jsonl \ --field_mapping {query: query, response: response}运行后data/my_qa_converted就是ms-swift可直接识别的数据集路径训练时直接--dataset data/my_qa_converted即可。

2 显存又爆了试试这3个立竿见影的开关降低精度把--torch_dtype bfloat16改成--torch_dtype float16显存再降15%关闭日志加上--logging_steps 100默认是1减少日志写入开销精简验证--eval_steps 100改成--eval_steps 200减少验证频率这三个参数调整后RTX 3090上7B模型的显存占用可从9GB稳定在

2GB。

3 想换模型只需改一个参数你想试试InternLM3或Llama4不用重装环境、不用改代码逻辑只改这一处# 原来是Qwen

5 --model Qwen/Qwen

2.

B-Instruct # 换成InternLM3同样7B --model internlm/internlm

b-chat # 或者Llama4需先确认魔搭上有 --model meta-llama/Llama-

B-Instructms-swift内置了200模型的template自动匹配机制InternLM3的|user|、Llama4的|start_header_id|等特殊token都会被自动识别你完全不用关心tokenizer细节。

4 训练中断了断点续训超简单意外关机或训练崩溃ms-swift保存的checkpoint天然支持续训# 在原来命令基础上加一个 --resume_from_checkpoint 参数 CUDA_VISIBLE_DEVICES0 \ swift sft \ --resume_from_checkpoint output/checkpoint-873 \ --learning_rate 5e-5 \ # 可微调学习率 ...它会自动加载优化器状态、学习率调度器、随机种子从第874步继续训练毫秒级恢复。

5 推理太慢一键启用vLLM加速默认PyTorch推理对7B模型约15 token/s换成vLLM后可达45 token/sCUDA_VISIBLE_DEVICES0 \ swift infer \ --adapters output/checkpoint-873 \ --infer_backend vllm \ --vllm_max_model_len 8192 \ --temperature 0注意首次运行会触发vLLM模型编译约1分钟之后每次启动都是秒级响应。

进阶能力一览当你的需求不再只是“微调”ms-swift的强大远不止于基础SFT。

当你熟悉了入门流程可以自然延伸到这些高价值场景——所有功能都保持同样的简洁命令风格。

1 用DPO让模型更“听话”指令微调教会模型“能做什么”DPODirect Preference Optimization则教会它“该怎么做”。

比如你有1000对标注数据(query, better_response, worse_response)只需一条命令swift rlhf \ --rlhf_type dpo \ --model Qwen/Qwen

2.

B-Instruct \ --dataset my-company/dpo-pairs \ --train_type lora \ --output_dir output-dpo训练完的模型在回答“如何给客户解释产品优势”时会优先选择专业、简洁、带数据支撑的版本而非冗长泛泛而谈的回复。

2 多模态微调一张图一句话生成专业报告ms-swift支持Qwen3-VL、InternVL

5等多模态模型。

假设你有一批商品图文字描述想让模型学会看图写详情页swift sft \ --model Qwen/Qwen3-VL \ --dataset my-company/product-images \ --train_type lora \ --multimodal true \ --output_dir output-vlmy-company/product-images数据集只需包含字段image_path,text_description,target_summary。

ms-swift会自动加载ViT图像编码器、对齐文本与视觉特征你专注业务逻辑即可。

3 量化部署4-bit模型手机也能跑训练完的模型要上线体积和延迟是硬指标。

ms-swift支持AWQ、GPTQ等主流量化swift export \ --adapters output/checkpoint-873 \ --quant_bits 4 \ --quant_method awq \ --output_dir qwen

b-awq量化后模型体积从14GB压缩到

8GB推理速度提升

3倍且精度损失小于1%在AlpacaEval上。

导出的模型可直接用vLLM或LMDeploy加载。

6.

总结你已经掌握了微调的核心心法回顾这篇指南我们没有陷入“什么是GRPO”“MoE如何分组”这类概念辨析而是聚焦在你能立刻行动、立刻见效的动作上第一步用swift sft一条命令跑通微调理解参数含义而非死记硬背第二步用swift infer --adapters直接体验效果建立正向反馈第三步用Web UI或vLLM加速把验证周期从小时级缩短到分钟级第四步遇到问题用内置工具dataset convert、--resume_from_checkpoint快速解决第五步当业务需要升级自然过渡到DPO、多模态、量化等进阶能力。

ms-swift的设计哲学很朴素让工程师的时间花在业务创新上而不是框架调试上。

它把600模型的兼容性、300算法的工程实现、全链路的性能优化都封装成一个个语义清晰的命令。

你不需要成为框架专家只要清楚“我想让模型学会什么”剩下的交给ms-swift。

现在合上这篇指南打开终端输入那条10分钟微调命令——你的第一个定制化大模型正在等待被唤醒。

--- **

SpringBoot实战：3种方式读取resources目录文件并实现下载（附完整代码）

核心内容摘要

SciToolAgent：大模型+知识图谱打造科研自动化神器，带你轻松搞定复杂工作流

为什么你需要一个微调框架——从“想试”到“能用”的关键一步你是不是也经历过这样的场景看到一篇关于Qwen

B-Instruct基于这500条客服对话教它更懂我们行业的术语。

三步极简入门10分钟完成一次真实微调别被“微调”两个字吓住。

B-Instruct学会回答“你是谁”这类自我认知问题——这是验证微调是否生效最快的方式。

1 环境准备两行命令搞定# 创建独立环境推荐Python

10 conda create -n swift-env python

2 执行微调一条命令自动下载、加载、训练CUDA_VISIBLE_DEVICES0 \ swift sft \ --model Qwen/Qwen

B-Instruct告诉ms-swift“我要微调这个模型”它会自动从魔搭ModelScope下载完整权重约14GB无需你手动找链接。

微调完立刻用两种零门槛推理方式很多人以为微调完必须先“合并权重”才能用其实这是个误区。

1 方式一交互式命令行最适合调试CUDA_VISIBLE_DEVICES0 \ swift infer \ --adapters output/checkpoint-873 \ --stream true \ --temperature 0 \ --max_new_tokens 2048执行后你会进入一个类似ChatGPT的终端界面你是谁我是通义千问Qwen

5由通义实验室研发的大语言模型。

2 方式二Web UI界面零代码拖拽即用swift web-ui浏览器打开http://localhost:7860你会看到一个简洁的图形界面左侧选择模型自动列出本地已下载的Qwen

B-Instruct中间上传LoRA点击“选择适配器”选中output/checkpoint-873文件夹右侧开始聊天输入“你好”模型立刻用微调后的能力回复这个UI不只是玩具。

超实用技巧新手必知的5个避坑锦囊刚上手时有些细节不注意就会卡半天。

总结的“保命技巧”每一条都来自真实生产环境。

1 数据集格式错了用一行命令自动修复你自己的业务数据可能是CSV或JSONL格式但ms-swift默认期望的是Hugging Face Dataset格式。

2GB。

3 想换模型只需改一个参数你想试试InternLM3或Llama4不用重装环境、不用改代码逻辑只改这一处# 原来是Qwen

5 --model Qwen/Qwen

B-Instruct # 换成InternLM3同样7B --model internlm/internlm

b-chat # 或者Llama4需先确认魔搭上有 --model meta-llama/Llama-

B-Instructms-swift内置了200模型的template自动匹配机制InternLM3的|user|、Llama4的|start_header_id|等特殊token都会被自动识别你完全不用关心tokenizer细节。

进阶能力一览当你的需求不再只是“微调”ms-swift的强大远不止于基础SFT。

1 用DPO让模型更“听话”指令微调教会模型“能做什么”DPODirect Preference Optimization则教会它“该怎么做”。

B-Instruct \ --dataset my-company/dpo-pairs \ --train_type lora \ --output_dir output-dpo训练完的模型在回答“如何给客户解释产品优势”时会优先选择专业、简洁、带数据支撑的版本而非冗长泛泛而谈的回复。

2 多模态微调一张图一句话生成专业报告ms-swift支持Qwen3-VL、InternVL

5等多模态模型。

3 量化部署4-bit模型手机也能跑训练完的模型要上线体积和延迟是硬指标。

b-awq量化后模型体积从14GB压缩到

8GB推理速度提升

3倍且精度损失小于1%在AlpacaEval上。

获取更多AI镜像** 想探索更多AI镜像和应用场景访问 [CSDN星图镜像广场](https://ai.csdn.net/?utm_sourcemirror_blog_end)提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

双男主刺激战场视频高清大全-双男主刺激战场视频高清大全应用

📑 文章目录

🔥 热门优化文章

🛠️ 实用工具推荐

百度百家号客服电话人工服务

SpringBoot实战：3种方式读取resources目录文件并实现下载（附完整代码）

核心内容摘要

SciToolAgent：大模型+知识图谱打造科研自动化神器，带你轻松搞定复杂工作流

为什么你需要一个微调框架——从“想试”到“能用”的关键一步你是不是也经历过这样的场景看到一篇关于Qwen

B-Instruct基于这500条客服对话教它更懂我们行业的术语。

三步极简入门10分钟完成一次真实微调别被“微调”两个字吓住。

B-Instruct学会回答“你是谁”这类自我认知问题——这是验证微调是否生效最快的方式。

1 环境准备两行命令搞定# 创建独立环境推荐Python

10 conda create -n swift-env python

2 执行微调一条命令自动下载、加载、训练CUDA_VISIBLE_DEVICES0 \ swift sft \ --model Qwen/Qwen

B-Instruct告诉ms-swift“我要微调这个模型”它会自动从魔搭ModelScope下载完整权重约14GB无需你手动找链接。

微调完立刻用两种零门槛推理方式很多人以为微调完必须先“合并权重”才能用其实这是个误区。

1 方式一交互式命令行最适合调试CUDA_VISIBLE_DEVICES0 \ swift infer \ --adapters output/checkpoint-873 \ --stream true \ --temperature 0 \ --max_new_tokens 2048执行后你会进入一个类似ChatGPT的终端界面 你是谁 我是通义千问Qwen

5由通义实验室研发的大语言模型。

2 方式二Web UI界面零代码拖拽即用swift web-ui浏览器打开http://localhost:7860你会看到一个简洁的图形界面左侧选择模型自动列出本地已下载的Qwen

B-Instruct中间上传LoRA点击“选择适配器”选中output/checkpoint-873文件夹右侧开始聊天输入“你好”模型立刻用微调后的能力回复这个UI不只是玩具。

超实用技巧新手必知的5个避坑锦囊刚上手时有些细节不注意就会卡半天。

总结的“保命技巧”每一条都来自真实生产环境。

1 数据集格式错了用一行命令自动修复你自己的业务数据可能是CSV或JSONL格式但ms-swift默认期望的是Hugging Face Dataset格式。

2GB。

3 想换模型只需改一个参数你想试试InternLM3或Llama4不用重装环境、不用改代码逻辑只改这一处# 原来是Qwen

5 --model Qwen/Qwen

B-Instruct # 换成InternLM3同样7B --model internlm/internlm

b-chat # 或者Llama4需先确认魔搭上有 --model meta-llama/Llama-

B-Instructms-swift内置了200模型的template自动匹配机制InternLM3的|user|、Llama4的|start_header_id|等特殊token都会被自动识别你完全不用关心tokenizer细节。

进阶能力一览当你的需求不再只是“微调”ms-swift的强大远不止于基础SFT。

1 用DPO让模型更“听话”指令微调教会模型“能做什么”DPODirect Preference Optimization则教会它“该怎么做”。

B-Instruct \ --dataset my-company/dpo-pairs \ --train_type lora \ --output_dir output-dpo训练完的模型在回答“如何给客户解释产品优势”时会优先选择专业、简洁、带数据支撑的版本而非冗长泛泛而谈的回复。

2 多模态微调一张图一句话生成专业报告ms-swift支持Qwen3-VL、InternVL

5等多模态模型。

3 量化部署4-bit模型手机也能跑训练完的模型要上线体积和延迟是硬指标。

b-awq量化后模型体积从14GB压缩到

8GB推理速度提升

3倍且精度损失小于1%在AlpacaEval上。

获取更多AI镜像** 想探索更多AI镜像和应用场景访问 [CSDN星图镜像广场](https://ai.csdn.net/?utm_sourcemirror_blog_end)提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

双男主刺激战场视频高清大全-双男主刺激战场视频高清大全应用

📑 文章目录

🔥 热门优化文章

🛠️ 实用工具推荐

相关优化文章 推荐

百度百家号客服电话人工服务

1 方式一交互式命令行最适合调试CUDA_VISIBLE_DEVICES0 \ swift infer \ --adapters output/checkpoint-873 \ --stream true \ --temperature 0 \ --max_new_tokens 2048执行后你会进入一个类似ChatGPT的终端界面你是谁我是通义千问Qwen

相关优化文章推荐