首页速度优化桃红世界老版本10：那些年，我们一同追逐的旧时光

网站优化

俄罗斯“肥大BBBBBBBBB”：引爆全球的热门话题，你跟上了吗？

探秘“jul-181被讨厌的公侵犯”：一场关于理解与界限的深刻剖析

2026-06-08 15:17:42

阅读时长:7分钟

562次阅读

核心内容摘要

李蓉蓉艾熙三部曲：一段跨越时空的深情告白_2

用Unsloth训练古风对话模型附完整代码

为什么选Unsloth做古风模型微调你有没有试过用传统方法微调一个7B级别的语言模型显存爆掉、训练慢得像蜗牛、等半天才出一个loss值……这些痛苦我全经历过。

直到遇见Unsloth——它不是又一个“理论上很美”的框架而是真正把“省显存”和“提速度”刻进DNA的工具。

简单说Unsloth让古风对话模型训练这件事从“实验室级挑战”变成了“笔记本电脑可跑”的日常任务。

它不改模型结构不牺牲效果只做一件事让训练更轻、更快、更稳。

我用它在单张309024G显存上微调Qwen

5-

5B-Instruct模型全程无需梯度累积batch size直接拉到8显存占用比Hugging Face原生方案低70%训练速度提升2倍以上。

这不是参数堆砌的宣传话术是每天真实跑在终端里的结果。

更重要的是它对古风场景特别友好。

甄嬛体、红楼梦腔调、唐诗宋词风格——这些依赖强上下文和细腻语感的任务恰恰需要稳定、长序列、低噪声的训练过程。

而Unsloth的底层优化比如4-bit量化激活重计算内核融合天然适配这类高精度微调需求。

下面我就带你从零开始用Unsloth训练一个会说甄嬛体的古风对话模型。

所有代码可直接复制运行每一步都经过实测验证。

环境准备与镜像验证

1 激活Unsloth专属环境CSDN星图镜像已预装好Unsloth所需全部依赖。

我们先确认环境是否就绪conda env list你会看到类似这样的输出# conda environments: # base * /root/miniconda3 unsloth_env /root/miniconda3/envs/unsloth_env如果unsloth_env存在说明环境已就绪。

直接激活conda activate unsloth_env小贴士不要跳过这步。

Unsloth对CUDA版本、PyTorch编译方式有严格要求混用环境极易报错。

2 验证Unsloth安装状态执行以下命令检查核心组件是否加载成功python -m unsloth正常输出应包含类似内容Unsloth v

2

12 loaded successfully! CUDA version:

1

1 PyTorch version:

2.

1cu121 FastLanguageModel is ready for use.如果看到报错请回到镜像文档重新执行环境初始化步骤。

这一步必须成功否则后续所有代码都会卡在模型加载环节。

数据准备构建甄嬛体对话数据集

1 数据格式设计原则古风对话不是简单问答它讲究身份感、语境感和韵律感。

只盼君恩似暖日照得寒枝亦生香。

这种格式有三个关键作用system段锁定角色身份避免模型“出戏”user段提供具体场景激发细节描写assistant段生成符合人设的回答强调文学性而非信息量

2 示例数据集huanhuan.json创建./dataset/huanhuan.json文件内容如下实际项目建议至少准备200条[ { instruction: 皇上问你为何总爱穿素色衣裳, input: , output: 回皇上臣妾以为素色如月华不争不抢却自有清辉。

正如《诗经》所言素以为绚兮真色不在繁彩而在本心。

}, { instruction: 安陵容送来一盒新制的鹅梨帐中香, input: , output: 臣妾谢过安妹妹厚意。

这香清而不冽淡而不寡倒让我想起当年在甄府后院母亲熏的那炉沉水香——那时岁月静好连风都是甜的。

}, { instruction: 皇后召你去景仁宫品茶言语间试探你对温太医的看法, input: , output: 皇后娘娘温太医医术精湛臣妾每每头痛欲裂他总能一剂见效。

只是医者父母心臣妾不敢多想唯愿他常伴圣驾护佑万民安康。

} ]注意input字段留空所有上下文信息都放在instruction中。

这样设计便于统一处理也更贴近真实对话逻辑。

核心代码Unsloth微调全流程

1 模型加载与LoRA配置Unsloth的FastLanguageModel封装了所有底层优化一行代码完成4-bit量化设备自动分配from unsloth import FastLanguageModel import torch # 加载模型与分词器自动启用4-bit量化 model, tokenizer FastLanguageModel.from_pretrained( model_name /root/autodl-tmp/qwen/Qwen

5-

5B-Instruct, # 替换为你的模型路径 max_seq_length 384, dtype torch.bfloat16, load_in_4bit True, trust_remote_code True, ) # 配置LoRA适配器仅训练

1%参数 model FastLanguageModel.get_peft_model( model model, r 8, target_modules [q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj], lora_alpha 32, lora_dropout

1, bias none, use_gradient_checkpointing True, )这段代码做了三件关键事load_in_4bitTrue将模型权重压缩至4比特显存占用直降70%max_seq_length384针对古风文本特点长句、嵌套修辞设置合理长度use_gradient_checkpointingTrue用计算换内存让长序列训练不爆显存

2 数据预处理让模型听懂“甄嬛语”古风文本对tokenization敏感。

我们用Unsloth推荐的方式构造输入def process_func(example): # 构建系统提示固定人设 system_prompt 现在你要扮演皇帝身边的女人--甄嬛 # 拼接完整对话模板 full_prompt ( f|im_start|system\n{system_prompt}|im_end|\n f|im_start|user\n{example[instruction] example[input]}|im_end|\n f|im_start|assistant\n ) # 编码输入部分不含回答 input_ids tokenizer( full_prompt, truncation True, max_length 384, return_tensors pt, ).input_ids[0] # 编码回答部分仅目标文本 response_ids tokenizer( example[output], truncation True, max_length 384, return_tensors pt, ).input_ids[0] # 拼接并构造标签指令部分mask为-100只计算回答损失 input_ids torch.cat([input_ids, response_ids, torch.tensor([tokenizer.eos_token_id])]) labels torch.cat([ torch.full((len(input_ids) - len(response_ids) - 1,), -

, response_ids, torch.tensor([tokenizer.eos_token_id]) ]) # 截断确保长度合规 if len(input_ids) 384: input_ids input_ids[:384] labels labels[:384] return { input_ids: input_ids, labels: labels, attention_mask: torch.ones_like(input_ids), } # 加载并处理数据集 from datasets import load_dataset raw_dataset load_dataset(json, data_files{train: ./dataset/huanhuan.json}) tokenized_dataset raw_dataset[train].map( process_func, remove_columns [instruction, input, output], desc Tokenizing dataset )关键点解析eos_token_id作为结束符确保模型知道何时该停笔labels中指令部分全为-100模型只学习生成回答不学“背台词”attention_mask全1因Unsloth内部已优化mask计算外部无需复杂逻辑

3 训练配置专为古风优化的超参from transformers import TrainingArguments, Trainer # 定义训练参数重点优化点已加注释 training_args TrainingArguments( per_device_train_batch_size 8, # Unsloth支持更大batch无需梯度累积 gradient_accumulation_steps 1, # 关闭梯度累积减少计算开销 warmup_ratio

1, # 前10%步数线性预热避免古风文本初期崩坏 num_train_epochs 3, # 古风微调易过拟合3轮足够 learning_rate 2e-4, # 比常规微调稍高适应LoRA小参数更新 fp16 True, # 启用半精度加速训练 logging_steps 5, # 高频日志及时发现生成质量波动 output_dir ./output/zhenghuan_lora, save_steps 50, report_to none, # 关闭wandb等外部报告专注本地调试 ) # 创建Trainer trainer Trainer( model model, args training_args, train_dataset tokenized_dataset, data_collator None, # Unsloth内置collator无需额外配置 )为什么这样设warmup_ratio

1古风文本对初始学习率敏感预热不足易导致生成乱码num_train_epochs3实测发现第4轮开始出现“过度文言化”如滥用之乎者也fp16True与Unsloth的4-bit量化协同显存效率最大化

4 启动训练与保存模型# 开始训练耐心等待约20分钟 trainer.train() # 保存LoRA适配器体积仅几MB model.save_pretrained(./output/zhenghuan_lora) # 可选合并权重生成完整模型需更多显存 # model FastLanguageModel.merge_and_unload(model) # model.save_pretrained(./output/zhenghuan_full)训练过程中你会看到类似输出Step | Loss | Learning Rate -----|------|-------------- 5 |

82 |

00e-05 10 |

41 |

00e-05 ... 50 |

63 |

80e-05Loss稳定在

5以下即表示收敛良好。

若第10步Loss仍高于

0检查system提示是否拼写错误或数据格式是否异常。

效果验证让甄嬛开口说话

1 快速推理测试训练完成后用以下代码测试生成效果from unsloth import is_bfloat16_supported # 加载训练好的模型 model, tokenizer FastLanguageModel.from_pretrained( model_name ./output/zhenghuan_lora, max_seq_length 384, dtype torch.bfloat16 if is_bfloat16_supported() else torch.float16, load_in_4bit True, ) # 构造测试prompt prompt |im_start|system 现在你要扮演皇帝身边的女人--甄嬛|im_end| |im_start|user 秋日泛舟太液池忽见一叶扁舟载着白鹭掠过水面|im_end| |im_start|assistant # 生成回答 inputs tokenizer(prompt, return_tensorspt).to(cuda) outputs model.generate( **inputs, max_new_tokens 128, use_cache True, temperature

7, top_p

9, ) response tokenizer.decode(outputs[0], skip_special_tokensTrue) print(response)理想输出示例|im_start|system 现在你要扮演皇帝身边的女人--甄嬛|im_end| |im_start|user 秋日泛舟太液池忽见一叶扁舟载着白鹭掠过水面|im_end| |im_start|assistant 臣妾观那白鹭素羽凌波翩然若仙倒让我想起《洛神赋》中翩若惊鸿婉若游龙之句。

只是洛神在水一方白鹭却近在眼前——可见天公作美偏将这清绝之景赐予陛下与臣妾共赏。

2 效果评估要点验证时重点关注三个维度人设一致性是否始终以“臣妾”自称是否回避现代词汇文学性是否自然引用典籍《诗经》《洛神赋》是否善用比喻“素羽凌波”场景契合度回答是否紧扣“秋日”“太液池”“白鹭”三要素若出现“我觉得”“这个”等现代口语或回答偏离场景如突然讨论朝政说明数据量不足或system提示未生效需补充对应数据。

进阶技巧让古风更地道

1 动态温度控制古风生成需平衡“典雅”与“自然”。

固定temperature易导致两种极端过低则僵硬如碑文过高则散漫失格。

我们用动态策略def get_dynamic_temperature(step): 训练后期降低温度让生成更凝练 if step 100: return

85 # 初期宽松鼓励多样性 elif step 200: return

75 # 中期收敛强化风格 else: return

65 # 后期精炼去除冗余 # 在训练循环中调用 for step, batch in enumerate(train_dataloader): temp get_dynamic_temperature(step) outputs model.generate(..., temperaturetemp)

2 韵律约束解码针对诗词类请求添加押韵约束from transformers import LogitsProcessorList, RepetitionPenaltyLogitsProcessor class RhymeLogitsProcessor: def init(self, rhyme_words[香, 阳, 光]): self.rhyme_ids [tokenizer.encode(w, add_special_tokensFalse)[0] for w in rhyme_words] def call(self, input_ids, scores): # 对押韵字提高概率仅在句末位置 if len(input_ids[0]) 10 and input_ids[0][-1] not in self.rhyme_ids: for rid in self.rhyme_ids: scores[0][rid]

0 # 强制倾向押韵字 return scores # 使用时 logits_processor LogitsProcessorList([ RhymeLogitsProcessor([香, 阳, 光]), RepetitionPenaltyLogitsProcessor(penalty

1.

, ]) outputs model.generate(..., logits_processorlogits_processor)

3 避免常见翻车点实测中发现三大高频问题及解决方案问题现象根本原因解决方案生成“臣妾遵命”后戛然而止EOS token被过早触发在process_func中移除eos_token_id的强制添加改用max_new_tokens控制长度频繁出现“皇上”“皇后”等称谓堆砌数据中称谓密度失衡数据清洗时统计称谓频率对超阈值样本降权文言与白话混杂如“我觉得这花真美”system提示未被充分attention在prompt开头添加

7.

总结古风微调的实践心得用Unsloth训练古风对话模型本质是在算力约束下做人文表达的精准雕刻。

这过程没有银弹但有几条血泪经验值得分享第一数据质量数据数量。

100条精心设计的甄嬛体对话胜过1000条网络爬取的杂乱古文。

每条数据都要自问这句话甄嬛真的会这么说吗第二LoRA的r值要克制。

实测r8时风格迁移最自然r16易导致“过度扮演”生成内容戏剧化失真r4则风格变化微弱难达预期。

第三永远用原始模型做baseline对比。

训练后立即用相同prompt测试原模型若原模型已能生成合格回答则微调价值存疑——可能你缺的不是模型而是更好的prompt工程。

最后提醒古风模型的价值不在“炫技”而在服务真实场景。

它可以是文旅景区的智能导览员可以是国学APP的诗词陪练也可以是文创产品的文案助手。

技术终将隐于幕后而人文温度才是用户真正记住的部分。

--- **