首页速度优化四月商城，亚瑟降临：史诗级皮肤，不止于此！

网站优化

解锁福建“大菠萝”的隐藏魅力：深度导航，不止于此！

黑土本子!一场关于土地与梦想的诗意对话

2026-06-12 13:02:27

阅读时长:1分钟

562次阅读

核心内容摘要

冉冉学姐与“唐伯虎心糖”

阿里Qwen3-TTS是开源语音合成模型具备三大核心功能3秒音色克隆、自然语言音色设计和预设音色。

模型支持10种语言首包延迟仅97ms适合实时对话。

提供多种部署方式包括在线Demo、本地部署、vLLM和ComfyUI集成。

有

7B和

6B参数版本适应不同显存需求。

技术亮点包括自研语音表征系统和双轨道架构确保高质量合成和高效生成。

Qwen 团队又搞了个大动作——Qwen3-TTS 开源了。

这货不是普通的语音合成模型而是一个能让 AI「开口说人话」的全能选手。

3 秒音频就能克隆任意声音用自然语言就能设计全新音色首包延迟只有97ms。

一句话

总结音色克隆音色设计流式生成 10 种语言开源 TTS 领域的全家桶来了。

下图展示了 Qwen3-TTS 的核心能力和技术亮点核心能力三大玩法Qwen3-TTS 提供三种模式覆盖了绝大多数语音生成场景

音色克隆Voice Clone给模型一段 3 秒左右的参考音频它就能学会这个声音的特征然后用这个声音说任何内容。

代码长这样import torchimport soundfile as sffrom qwen_tts import Qwen3TTSModelmodel Qwen3TTSModel.from_pretrained( Qwen/Qwen3-TTS-12Hz-

7B-Base, device_mapcuda:0, dtypetorch.bfloat16, attn_implementationflash_attention_2,)ref_audio 你的参考音频.wavref_text 参考音频对应的文本内容wavs, sr model.generate_voice_clone( text你想让 AI 说的话, languageChinese, ref_audioref_audio, ref_textref_text,)sf.write(output.wav, wavs[0], sr)参考音频可以是本地文件、URL、base64 字符串甚至是 numpy 数组很灵活。

音色设计Voice Design这是我最感兴趣的功能。

不需要任何参考音频用自然语言描述你想要的声音风格模型就能「创造」出来model Qwen3TTSModel.from_pretrained( Qwen/Qwen3-TTS-12Hz-

7B-VoiceDesign, device_mapcuda:0, dtypetorch.bfloat16, attn_implementationflash_attention_2,)wavs, sr model.generate_voice_design( text哥哥你回来啦人家等了你好久好久了要抱抱, languageChinese, instruct体现撒娇稚嫩的萝莉女声音调偏高且起伏明显营造出黏人、做作又刻意卖萌的听觉效果。

,)sf.write(output.wav, wavs[0], sr)instruct 参数支持的描述非常丰富「用海盗那种粗犷的嗓音说话」「用特别愤怒的语气说」「17岁男性男高音说话时有点紧张」说白了你脑子里想象什么声音用文字描述出来模型就帮你生成。

这打破了传统 TTS 只能选预设音色的限制。

如何写出高质量的音色描述官方 API 文档给出了详细指南。

好的音色描述要遵循五个原则具体不含糊用「低沉」「清脆」「语速快」等明确描述避免「好听」「普通」这种主观词多维度不单一结合性别、年龄、情感等多个维度单说「女声」太宽泛了客观不主观描述声音本身的特征不要说「我最喜欢的声音」原创不模仿描述音色特征不要要求模仿某某明星版权风险简洁不冗余每个词都要有意义不要「非常非常好听的女声」官方推荐的描述维度维度示例性别男性、女性、中性年龄儿童(

岁)、青少年(

岁)、青年(

岁)、中年(

岁)、老年(55岁)音调高音、中音、低音、偏高、偏低语速快速、中速、慢速、稍快、稍慢情感开朗、平静、温柔、严肃、活泼、沉稳、舒缓特征磁性、清脆、沙哑、柔和、甜美、浑厚、有力使用场景新闻播报、广告配音、有声书、动画角色、语音助手、纪录片旁白正反示例对比✅ 推荐「年轻活泼的女声语速快音调明显上扬适合介绍时尚产品」分析结合了年龄、性格、语速、音调和使用场景❌ 不推荐「好听的声音」问题太模糊缺少可操作的特征改进加上具体维度比如「音色清亮的年轻女声音调温柔」✅ 推荐「沉稳的中年男声语速慢音调低沉磁性适合新闻播报或纪录片旁白」分析明确了性别、年龄段、语速、音色特质和应用领域❌ 不推荐「像某某明星的声音」问题版权风险模型不支持直接模仿改进描述声音特征比如「成熟磁性的男声语调稳重」

预设音色Custom Voice不想折腾的同学官方提供了多个高质量预设音色开箱即用音色名性别语言特点Vivian女中文温柔自然Ryan男英语成熟稳重…………支持10 种语言中文、英语、日语、韩语、德语、法语、俄语、葡萄牙语、西班牙语、意大利语。

技术亮点从技术报告里挖出几个重点Qwen3-TTS架构概览

自研的语音表征系统Qwen3-TTS 实际上有两个 tokenizerTokenizer采样率码本特点适用场景Qwen-TTS-Tokenizer-25Hz25Hz单码本强调语义内容与 Qwen-Audio 无缝集成需要高语义保真度的场景Qwen-TTS-Tokenizer-12Hz

1

5Hz16层多码本极限码率压缩超低延迟流式实时对话、流式生成目前开源的模型使用12Hz tokenizer首包延迟只有 97ms。

关键是它完整保留了副语言信息和声学环境特征这是很多开源 TTS 做不到的。

双轨道架构的妙处采用离散多码本语言模型架构完全绕开了传统 LMDiT 方案的信息瓶颈和级联误差。

翻译成人话就是合成质量更高生成效率更快。

双轨道混合流式生成单模型同时支持流式和非流式生成。

首包延迟97ms这意味着在对话场景里AI 几乎能做到实时响应。

性能对比官方给的 benchmark 数据延迟对比越低越好模型延迟Qwen3-TTS

517sHiggs-Audio-v

2

505sVoxCPM

835s首字延迟 97ms综合延迟

5 秒目前开源方案里最快的那一档。

训练数据量500 万小时语音数据覆盖 10 种语言。

这个数据量级决定了它的基础能力下限够高。

快速上手方式一在线 Demo零门槛打开 Hugging Face Demo上传一段录音输入想说的文字点击生成——几秒钟后就能听到效果。

国内用户也可以用 ModelScope Demo速度更快。

方式二本地部署# 创建环境conda create -n qwen3-tts python

12 -yconda activate qwen3-tts# 安装pip install -U qwen-tts# 可选安装 FlashAttention 2 减少显存占用pip install -U flash-attn --no-build-isolation启动本地 Web UI# 预设音色qwen-tts-demo Qwen/Qwen3-TTS-12Hz-

7B-CustomVoice --ip

0.

0 --port 8000# 音色设计qwen-tts-demo Qwen/Qwen3-TTS-12Hz-

7B-VoiceDesign --ip

0.

0 --port 8000# 音色克隆qwen-tts-demo Qwen/Qwen3-TTS-12Hz-

7B-Base --ip

0.

0 --port 8000访问http://localhost:8000即可使用。

方式三vLLM 部署vLLM 官方第一时间宣布 day-0 支持 Qwen3-TTS——语音克隆、语音设计、自然语言控制情感与语调全部原生适配。

vLLM-Omni 已经支持git clone https://github.com/vllm-project/vllm-omni.gitcd vllm-omni/examples/offline_inference/qwen3_tts# 预设音色python end2end.py --query-type CustomVoice# 音色设计python end2end.py --query-type VoiceDesign# 音色克隆python end2end.py --query-type Base --mode-tag icl目前只支持离线推理在线服务还在开发中。

方式四ComfyUI 集成玩可视化工作流的福音对于 ComfyUI 用户来说有个好消息——现在可以用拖拽节点的方式玩 Qwen3-TTS 了。

有开发者做了一个 ComfyUI-Qwen-TTS 插件把 Qwen3-TTS 的三大功能全部封装成节点ComfyUI节点示例为什么推荐这个方案可视化流程不用写代码拖拽节点就能搭建语音生成工作流无需单独安装不用pip install qwen-tts插件自带了所有依赖兼容性好专门处理了 transformers 版本冲突问题官方包要求

4.

5

3可能和其他节点冲突Apple Silicon 支持Mac M 系列芯片用 MPS 加速不需要 CUDA三个核心节点节点名称对应功能模型选择典型场景Qwen3-TTS 声音设计VoiceDesign仅

7B创建虚拟角色声音、角色扮演配音Qwen3-TTS 声音克隆VoiceClone

6B /

7B克隆真人声音、多人对话Qwen3-TTS 预设声音CustomVoice预设音色快速生成、批量处理安装方式cd ComfyUI/custom_nodesgit clone https://github.com/flybirdxx/ComfyUI-Qwen-TTS.gitcd ComfyUI-Qwen-TTSpip install torch torchaudio transformers librosa accelerate然后重启 ComfyUI在节点菜单里就能找到 Qwen3-TTS 系列节点了。

使用技巧声音克隆节点参考音频建议

秒太短效果不稳定太长也没必要显存优化用 bf16 精度可以省一半显存效果基本不掉本地模型提前把权重下载到ComfyUI/models/qwen-tts/可以避免 HuggingFace 连接超时典型工作流示例如果你在做视频配音可以这样组合文本节点 → Qwen3-TTS声音设计 → 音频输出 → Qwen3-TTS预设声音 → 音频输出 → Qwen3-TTS声音克隆 → 音频输出一次性生成多个角色的声音然后在视频剪辑软件里直接用。

模型选择指南模型参数量功能显存需求Qwen3-TTS-12Hz-

7B-CustomVoice

7B预设音色~8GBQwen3-TTS-12Hz-

7B-VoiceDesign

7B自然语言设计音色~8GBQwen3-TTS-12Hz-

7B-Base

7B音色克隆~8GBQwen3-TTS-12Hz-

6B-CustomVoice

6B预设音色轻量版~4GBQwen3-TTS-12Hz-

6B-Base

6B音色克隆轻量版~4GB显卡不够的同学

6B 系列是个不错的选择效果略有损失但可接受。

进阶玩法先设计后克隆一个实用的工作流用 VoiceDesign 模型合成一段符合目标角色的参考音频用这段音频创建可复用的克隆 prompt后续生成时直接复用不需要每次重新提取特征# 先用 VoiceDesign 创建参考音频design_model Qwen3TTSModel.from_pretrained(Qwen/Qwen3-TTS-12Hz-

7B-VoiceDesign, ...)ref_instruct 17岁男性男高音说话时会有点紧张ref_wavs, sr design_model.generate_voice_design(text参考文本, instructref_instruct)# 再用 Base 模型创建可复用的克隆 promptclone_model Qwen3TTSModel.from_pretrained(Qwen/Qwen3-TTS-12Hz-

7B-Base, ...)voice_clone_prompt clone_model.create_voice_clone_prompt(ref_audio(ref_wavs[0], sr), ...)# 后续可以反复使用wavs, sr clone_model.generate_voice_clone(text新台词, voice_clone_promptvoice_clone_prompt)这个玩法适合小说朗读、游戏配音等需要保持角色一致性的场景。

总结Qwen3-TTS 是目前开源 TTS 领域最完整的方案3 秒音色克隆效果自然自然语言控制音色想象力生产力97ms 首包延迟适合实时对话10 种语言支持覆盖面广vLLM day-0 支持部署友好官方提供微调指南AI大模型从0到精通全套学习大礼包我在一线互联网企业工作十余年里指导过不少同行后辈。

帮助很多人得到了学习和成长。

只要你是真心想学AI大模型我这份资料就可以无偿共享给你学习。

大模型行业确实也需要更多的有志之士加入进来我也真心希望帮助大家学好这门技术如果日后有什么学习上的问题欢迎找我交流有技术上面的问题我是很愿意去帮助大家的如果你也想通过学大模型技术去帮助就业和转行可以扫描下方链接大模型重磅福利入门进阶全套104G学习资源包免费分享

从入门到精通的全套视频教程包含提示词工程、RAG、Agent等技术点

AI大模型学习路线图还有视频解说全过程AI大模型学习路线

学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的

大模型面试题目详解

这些资料真的有用吗?这份资料由我和鲁为民博士共同整理鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利同时还斩获了吴文俊人工智能科学技术奖。

目前我正在和鲁博士共同进行人工智能的研究。

所有的视频由智泊AI老师录制且资料与智泊AI共享相互补充。

这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌构建起前沿课程智能实训精准就业的高效培养体系。

课堂上不光教理论还带着学员做了十多个真实项目。

学员要亲自上手搞数据清洗、模型调优这些硬核操作把课本知识变成真本事‌如果说你是以下人群中的其中一类都可以来智泊AI学习人工智能找到高薪工作一次小小的“投资”换来的是终身受益应届毕业生‌无工作经验但想要系统学习AI大模型技术期待通过实战项目掌握核心技术。

零基础转型‌非技术背景但关注AI应用场景计划通过低代码工具实现“AI行业”跨界‌。

业务赋能 ‌突破瓶颈传统开发者Java/前端等学习Transformer架构与LangChain框架向AI全栈工程师转型‌。

获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】