开箱即用的AI语音方案:GLM-TTS本地部署实践

核心内容摘要

HeyGem性能优化技巧,提升批量处理速度秘诀分享
M2LOrder模型结合数据库课程设计:构建情感分析数据管理平台

拼多多AI智能客服助手的架构设计与实现:从对话管理到生产部署

跨话语重评分实现更具包容性的语音识别在一篇入选ICASSP前3%的优秀论文中某中心的研究人员通过改进基于图的标签传播技术提升了针对非标准发音的语音识别性能。

自动语音识别模型通常用于语音助手中将语音转换为文本通常包含两个阶段。

第一阶段一个深度神经网络将代表话语的声学信息映射到关于所说话词的多个假设。

第二阶段一个语言模型评估重新评分这些假设词序列的合理性。

第一阶段——声学模型——针对大量说话者的平均性能进行了优化因此它在训练集中代表性不足的语音变体上例如地方口音中的发音表现往往不佳。

标准的重评分方法无法纠正第一阶段语音识别器中存在的这种多数性偏见。

在今年的声学、语音与信号处理国际会议上我们提出了一种新的语音识别假设重评分方法有助于纠正对训练数据中代表性不足或失配的语音所产生的错误。

该方法从具有不同说话者但具有相似假设的语音样本构建一个图并在听起来相似的语音片段之间创建边。

然后它会提升图中相邻节点所共享的假设的概率这意味着听起来相似的语音片段会使相似的假设得到提升。

其效果是即使某些单词的发音在孤立情况下可能性很低但如果它们在多个语音片段中保持一致这些发音可以相互支持。

在实验中我们在一个区域性口音英语数据库上测试了跨话语重评分方法。

该语音识别器主要在北美英语上训练因此对来自英格兰、苏格兰、爱尔兰、印度等地的说话者显示出较高的错误率。

我们的方法全面降低了词错误率平均降低了44%。

该算法需要比较整组语音片段因此目前主要在半监督学习场景中直接有用。

在这种设置下通常一个大型的教师ASR模型为另一个通常计算效率更高的学生模型标注训练数据。

通过为包含代表性不足语音模式的语音样本附加更准确的标签我们可以使训练所用数据多样化并最终帮助克服多数性偏见。

今年ICASSP组织者将最佳论文奖的概念泛化认可了会议接收论文中排名前3%的论文。

我们很荣幸我们的论文位列其中。

图构建我们考虑的情况是初始的转录假设由一个完全训练的递归神经网络转录器ASR模型生成。

RNN-T模型是一种编码器-解码器模型这意味着它有一个编码器模块将输入映射到表示空间以及一个解码器模块利用这些映射称为嵌入来生成ASR假设。

为了对这些假设进行重评分我们采用了基于图的标签传播技术将标签从已标注的示例传播到未标注的示例。

在我们的案例中图节点代表语音嵌入标签是第一次识别过程产生的ASR假设。

我们图构建方法的第一步是选择要纳入图中的数据。

我们将数据分成若干组每组内的语音片段在其ASR假设上有实质性的重叠并为每个这样的组构建一个单独的图。

例如单个图可能主要由关于天气的类似措辞的查询构成。

一旦确定了哪些语音片段要包含在图中我们就测量它们嵌入之间的距离。

我们尝试了几种不同的距离度量但最终确定了一种基于动态时间规整的距离度量。

DTW最初设计用于测量时间序列之间的距离但我们将嵌入向量中的每个值本质上视为一个单独的时间步长。

基于DTW的距离度量在此应用中效果良好因为经验上它与语音片段转录本之间的距离以编辑距离衡量有很好的相关性。

基于距离测量我们计算图节点之间的边。

我们尝试了根据节点之间的DTW距离对边进行加权但再次根据经验我们发现二元边效果最好。

我们从数据中学习一个距离阈值所有彼此距离低于该阈值的节点通过边连接距离超过该阈值的节点则保持未连接。

标签传播在半监督学习的设置中图中包含一些标注数据其转录本高度准确和大量未标注数据。

我们使用标准的基于图的标签传播算法将不同ASR假设的“优劣分数”分布到整个图中。

本质上这些算法旨在最小化连接即相似图节点之间标签值的剧烈不连续性。

其思想是即使ASR模型对具有非标准发音的语音片段的正确转录赋予了较低置信度分数该语音片段的嵌入也会与正确转录获得高置信度分数的语音片段共享边。

然后正确的转录将传播到图的该区域从而增加具有非标准发音的语音片段被正确转录的几率。

FINISHED更多精彩内容 请关注我的个人公众号 公众号办公AI智能小助手或者 我的个人博客 https://blog.qife

com/对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号网络安全技术点滴分享

7777K点me-7777K点应用

百度百家号客服电话人工服务

123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123