核心内容摘要
探索男女之间“亲密”的无限可能:不止于此,更是灵魂的共鸣
️ VibeVoice: 开源前沿语音AI项目概况VibeVoice是一个开源的前沿语音AI模型家族包括文本转语音TTS和自动语音识别ASR模型。
VibeVoice的核心创新在于其采用连续语音标记器声学和语义以超低的帧率
5 Hz运作这样不仅有效地保留了音频的保真度而且显著提高了处理长序列的计算效率。
该系统通过大型语言模型LLM来理解文本上下文和对话流并利用扩散头生成高保真的声学细节。
如果您想了解更多信息、演示和示例请访问我们的项目页面。
模型权重快速体验VibeVoice-ASR-7BHF 链接游乐场VibeVoice-TTS-
5BHF 链接禁用VibeVoice-Realtime-
5BHF 链接Colab模型详细介绍
VibeVoice-ASR - 长段语音识别VibeVoice-ASR是一个统一的语音转文本模型能够处理长达60分钟的语音音频并生成包括“谁说话者、何时时间戳、及何事内容”的结构化转录支持用户自定义热词。
60分钟单次处理与传统的ASR模型将音频切割成短块不同VibeVoice ASR可以接受最大60分钟的连续音频输入从而确保整体说话者追踪和语义连贯。
自定义热词用户可以提供自定义热词例如特定名称、术语或背景信息以指导识别过程从而显著提高对特定领域内容的准确性。
丰富的转录谁何时什么该模型结合进行了ASR、说话者识别和时间戳处理生成指示“谁”在“什么时间”说了“什么”的结构化输出。
文档 | Hugging Face | 游乐场 | ️ 微调
️ VibeVoice-TTS - 长段多说话者文本转语音最佳用途长段对话音频、播客、多说话者对话。
⏱️ 90分钟长段生成可以在一次性处理的情况下合成长达90分钟的单一说话者或对话语音确保说话者一致性和语义连贯性。
多说话者支持在单一对话中支持最多4位不同说话者具备自然的轮换和说话者一致性。
富有表现力的语音生成富有表现力、自然听起来的声音捕捉对话的动态和情感细微差别。
多语言支持支持英语、中文及其他语言。
文档 | Hugging Face | 论文表现示例英语中文跨语言自发演唱四人长谈
⚡ VibeVoice-Streaming - 实时流媒体文本转语音VibeVoice-Realtime是一个轻量级的实时文本转语音模型支持流式文本输入和强大的长段语音生成。
参数大小
5B适合部署实时TTS首次可听延迟约300毫秒支持流媒体文本输入稳定的长段语音生成约10分钟 文档 | Hugging Face | Colab⚠️ 风险与限制尽管我们已通过多种技术进行优化VibeVoice仍可能生成意外、偏见或不准确的输出。
该模型可能继承其基础模型特别是Qwen
5
5b版本产生的偏差、错误或遗漏。
此外高质量的合成语音可能被滥用以创建令人信服的虚假音频内容进行冒充、欺诈或传播虚假信息。
用户必须确保转录的可靠性检查内容的准确性避免以误导性的方式使用生成的内容。
使用者应确保在法律允许的情况下使用生成的内容并在分享人工智能生成内容时予以披露。
我们不建议在没有进一步测试和开发的情况下将VibeVoice用于商业或现实场景。
该模型旨在用于研究和开发目的请负责地使用。
同类项目介绍在语音AI领域还存在许多同类项目具有不同的功能和特点。
比如Google TTS提供多种语音风格与语调支持多种语言适合于简单的文本到语音转换。
Mozilla TTS开源项目致力于多种语言和方言的高质量语音合成适合开发者自定义需求的场景。
IBM Watson Text to Speech支持多种自然语言的实时转换具有丰富的API接口方便集成到各种应用中。
这些项目虽然各有千秋但VibeVoice的长时间语音处理能力及多说话者支持却使其在许多实际应用中具备独特的优势。