穿越时空的经典,重温“超碰九七”的独特魅力

核心内容摘要

【深度解析】一级AE与三级AE:谁才是广告界的“金字招牌”?
深夜指尖的终极诱惑:揭秘那些让你欲罢不能的“宝藏空间”与数字资源进化论

聚ä¹

在不重新训练的情况下教语音识别器学习新词近年来自动语音识别ASR已转向全神经网络模型。

连接时序分类CTC损失函数因其预测不依赖于先前上下文从而产生推理延迟低的简单模型成为端到端ASR的一个有吸引力的选择。

与早期使用词典匹配音素和候选词的混合ASR模型不同全神经模型难以适应生僻词或不熟悉的词。

对CTC模型进行新词偏置尤其困难因为它缺乏上下文即模型在任何给定时间步的预测都独立于先前时间步的输出这种相同的预测方案虽然能实现低延迟解码但也带来了挑战。

对于操作词汇不断变化的ASR应用而言这是一个问题。

例如当像“Zelenskyy”这样的新名字进入对话时或者当用户向通讯录添加新名字时。

通过包含新词的新数据集重新训练ASR模型来更新大型模型是耗时且计算密集度极高的方法。

在今年的SLT研讨会上发表的一篇论文中描述了一种使CTC模型能够正确转录新实体名称而无需重新训练的方法。

该方法包含多种技术用于使模型偏向列表中的名称。

这些技术既适用于模型的编码器将输入转换为向量表示也适用于其集束搜索解码器评估候选输出序列。

这些技术可以组合应用以最大化准确转录的可能性。

在一个包含疾病和药物名称等困难医学术语的数据集上使用该方法将ASR模型在这些实体上的F1分数从无偏置模型的39%提升至62%。

同样在一个包含欧洲议会录音的公开数据集上该方法将罕见实体城市名称、人名等的识别F1分数从49%提升至80%且无需重新训练基础ASR模型。

偏置方法编码器偏置为了偏置CTC模型的编码器使用了上下文适配器。

该适配器在冻结基础CTC模型权重后进行训练。

它以训练样本中的生僻词集作为输入并学习词的子词单元序列与其音频表示之间的映射关系。

该适配器使用编码器中间层表示的加权和作为音频表示从而对抗CTC模型的条件独立性假设。

在推理时使用上下文适配器嵌入罕见词或词表外OOV实体名称列表在每个音频时间帧一个注意力模块尝试将名称嵌入与音频表示进行匹配。

解码器偏置在解码器偏置方面获得了积极结果。

所有技术均在推理时直接应用自适应子词增强在集束搜索解码中如果一个top-k子词序列以自定义实体列表上的子词开头则动态提升其概率。

一元语法增强通过一个OOV/BOOST类将列表中的词添加到外部语言模型来提升其概率从而在推理期间保持语言模型不变。

基于音素距离的重新评分利用中间层网络的输出音素在它们与CTC模型输出之间进行强制对齐。

计算此对齐的成本并用于重新对n-best列表进行评分。

基于发音的词典查找对于罕见词和OOV词音素预测假设比子词预测更准确。

因此使用强制对齐来识别音素序列中的词边界。

如果与一个词对应的音素序列与词典中某个词的发音完全匹配则将该词替换为词典实体。

字素到字素G2G技术字素是书面文本的最小有意义单位。

使用一个将单个字素映射到其多种可能发音即音素的表格以解析实体名称列表上词的替代发音。

联合模型最后提出了一个联合模型结合了上述编码器和解码器偏置技术。

正如预期的那样这些技术是互补的并产生了叠加的增益。

从概念上讲编码器偏置方法有助于为其复制的罕见子词生成更高的概率分数这有助于防止罕见子词在子词图的集束搜索解码过程中被剪枝。

而解码器偏置技术则进一步提升了罕见词和OOV词的候选路径在图中排名靠前的可能性。

更多精彩内容 请关注我的个人公众号 公众号办公AI智能小助手或者 我的个人博客 https://blog.qife

com/对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号网络安全技术点滴分享

牢记官网一起槽-牢记官网一起槽应用

百度百家号客服电话人工服务

123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123