首页速度优化CLIP-as-service快速上手：5分钟搭建文本图像嵌入服务终极指南

网站优化

美团二面挂了！问 “用户积分系统怎么设计”，我答 “加个字段存总数”，面试官：积分过期你怎么算？

3步融入BibiGPT社区：从用户到贡献者的蜕变指南

2026-06-08 15:08:44

阅读时长:3分钟

562次阅读

核心内容摘要

用过才敢说!专科生专属论文神器 —— 千笔·专业学术智能体

2022年语音领域规模最大、最全面的国际学术会议Interspeech在韩国仁川举行。

某中心作为白金赞助商出席。

某中心语音AI组织的几位资深科学家重点介绍了该机构在本次会议上贡献的研究本文聚焦于语音科学方面的进展围绕近期语音AI研究的两个核心主题展开端到端神经语音识别以及公平性。

端到端神经语音识别传统的语音识别系统包含专门处理不同层面语言学知识的组件声学模型捕捉语音声音与声学波形语音学的对应关系发音模型将这些声音映射为单词语言模型则捕捉句法、语义和对话上下文等高阶特性。

这些模型均在独立数据上训练并通过图和搜索算法进行组合以推断与声学输入最匹配的单词序列。

此类系统的最新版本在声学和语言模型等组件中采用了神经网络但在模型集成时仍依赖非神经方法因此被称为“混合”自动语音识别系统。

尽管混合ASR方法结构化和模块化但也难以建模声学、语音和词级表征之间的相互作用以及难以对识别系统进行端到端优化。

因此ASR领域的许多近期研究都集中在所谓的端到端或全神经识别系统上这类系统可直接从声学输入推断单词序列。

端到端ASR系统使用可深度端到端优化以追求识别准确性的多层神经架构。

虽然它们需要大量数据和计算进行训练但一旦训练完成它们能提供简化的推理计算架构并具备更优的性能。

某中心的ASR系统在云端和本地设备上均将端到端模型作为其核心算法。

在整个行业和学术研究中端到端架构仍在不断改进以提高准确性、降低计算成本和/或延迟或缓解因模块化不足而难以在运行时注入外部如特定领域知识的问题。

某中心在Interspeech上发表的论文探讨了端到端ASR中的几个开放性问题以下摘要介绍其中几篇。

用于流式语音识别的卷积增强循环神经网络传感器在《ConvRNN-T: Convolutional augmented recurrent neural network transducers for streaming speech recognition》中作者提出了一种流行的循环神经网络传感器端到端神经架构的新变体。

其目标之一是保持因果处理的特性即模型输出仅依赖于过去和当前而非未来的输入从而实现流式ASR。

同时他们希望提升模型捕获长期上下文信息的能力。

为实现这两个目标他们在基础RNN-T上增加了两个不同的卷积前端一个用于编码时间上局部相关性的标准CNN以及一个新颖的“全局CNN”编码器。

该编码器旨在通过

总结截至当前时间步整个话语的激活值来捕获长期相关性同时随时间增量处理话语。

作者表明与其它已提出的神经流式ASR架构如基础RNN-T、Conformer和ContextNet相比所得的ConvRNN-T具有更高的准确性。

用于流式ASR的计算成本分摊Transformer端到端ASR模型的另一个关注点是计算效率。

在《Compute cost amortized transformer for streaming ASR》中作者利用一个直观观察模型执行的计算量应随着任务难度的变化而变化。

例如噪声或口音导致模糊的输入可能需要比清晰、主流口音输入更多的计算。

研究人员通过一种非常优雅的方法实现了这一点该方法利用了模型的集成神经结构。

他们的起点是一个基于Transformer的ASR系统由多层多头自注意力和前馈神经块堆叠而成。

此外他们还训练了“仲裁器”网络该网络查看声学输入并可选择地查看中间块输出以切换各个组件的开关。

由于这些组件块具有将其输出与较早层输出相结合的“跳跃连接”因此它们对于整体计算的进行实际上是可选的。

对于给定的输入帧被切换关闭的块将节省该块通常执行的所有计算产生零向量输出。

仲裁器网络本身足够小不会增加显著的计算负担。

然而使该方案可行且有效的是Transformer组件和控制它们的仲裁器可以联合训练目标有两个执行准确的ASR和最小化总计算量。

后者通过向训练目标函数中添加一项奖励减少计算的项来实现。

调整超参数可选择准确性与计算之间的期望平衡。

作者表明他们的方法可以减少60%的计算而ASR错误率仅轻微增加3%。

他们的成本分摊Transformer被证明比基准方法有效得多后者约束模型仅关注输入上的滑动窗口仅产生13%的节省而错误率增加了近三倍。

分离器-传感器-分割器多说话人语音的流式识别与分割最后在回顾端到端神经ASR进展时我们探讨了识别多人语音并跟踪谁说了什么的方法。

这在传统上通过模块化系统完成分别执行ASR和说话人日志记录即将音频片段按说话人标记。

然而通过将这两项任务集成到单个端到端神经模型中神经网络模型最近也带来了进步和简化。

在《Separator-transducer-segmenter: Streaming recognition and segmentation of multi-party speech》中作者不仅将ASR和按说话人分割集成在一起而且是在增量处理输入的同时实现。

具有低延迟的流式多说话人ASR是使语音助手能够在协作设置中与用户交互的

关键技术。

该研究人员的系统通过RNN-T架构的泛化来实现这一点该架构跟踪多个说话人之间的轮换其中最多两个说话人可以同时活跃。

与早期方法相比产生改进的关键要素是使用专用标记来识别说话人轮次的开始和结束即作者所称的“起点检测”和“终点检测”。

终点检测是许多交互式ASR系统的标准功能用于预测说话人何时结束。

除了以这种符号方式表示轮换结构外模型在训练过程中也会因输出这些标记耗时过长而受到惩罚以提高输出的延迟和时间准确性。

语音AI的性能公平性基于语音的AI也存在类似的担忧语音特性因说话者背景和环境的不同而有很大差异。

由于使用商业产品的说话者大多是自我选择的而且由于隐私等原因说话者属性通常难以获取因此在训练集中实现平衡的表征是困难的。

该主题也是Interspeech一个特别会议“包容与公平的语音技术”的主题某中心的几位科学家以共同组织者和演讲者的身份参与其中。

通过弹性权重巩固减少自动语音识别中的地理差异特别会议论文之一《Reducing geographic disparities in automatic speech recognition via elastic weight consolidation》研究了美国境内的地理位置如何影响ASR准确性以及如何调整模型以缩小表现最差区域的差距。

这里采用了两个步骤首先识别出错误率高于平均水平的说话者子集然后实施缓解步骤以试图改善这些群体的性能。

该方法通过根据说话者的地理经度和纬度对其进行分区来识别群体使用类似决策树的算法最大化结果区域之间的词错误率差异。

接着按平均WER对区域进行排名识别来自最高错误率区域的数据以进行性能改进。

为实现这一点研究人员使用微调来优化针对目标区域的模型参数同时采用称为弹性权重巩固的技术以最小化在其余区域上的性能下降。

这对于防止所谓的“灾难性遗忘”现象很重要即神经模型在微调过程中对先前的训练数据性能大幅下降。

其思想是量化参数空间不同维度对整体性能的影响然后在适应数据子集时避免沿这些维度的大幅变化。

这种方法降低了跨区域的WER均值、最大值和方差甚至降低了总体WER击败了模型适应的几种基准方法。

迈向语音识别的公平性性能差异的发现与缓解在《Toward fairness in speech recognition: Discovery and mitigation of performance disparities》中作者探讨了识别表现不佳说话人群体的替代方法。

一种方法是使用人类定义的、由邮政编码给出的地理区域结合美国人口普查数据中的人口统计信息来划分美国地理区域。

通过多数人口统计属性对邮政编码进行二元分区以最大化WER差异。

然后将WER较高的分区作为缓解目标这种方法与上述论文中采用的方法类似。

然而这种方法不精确并且受限于可用的人口统计数据因此难以推广到其他地理区域。

或者作者使用由神经说话人识别模型学习的语音特征来对说话人进行分组。

这些“说话人嵌入向量”被聚类反映了听起来相似的说话人往往具有相似ASR难度的直觉。

随后这些虚拟的说话人区域而非个体身份可以根据难度进行排名并作为缓解目标而无需依赖人类标记、分组或说话人/属性的自我识别。

自动方法识别出的ASR准确率差距比“地理人口统计”方法更大同时针对更大比例的说话人进行性能缓解。

用于说话人验证公平性的对抗性重新加权我们强调的最后一篇关于公平性的论文探讨了另一种避免性能差异的方法称为对抗性重新加权。

该方法不依赖于输入空间的显式划分而是根据输入特征为训练实例分配连续权重其理念是较难的示例获得较高权重从而对性能优化产生更大影响。

其次ARW更紧密地交织并迭代了加权后的群体识别和缓解步骤。

从数学上讲这被形式化为一个最小-最大优化算法该算法交替进行通过改变样本权重最大化误差因此称为“对抗性”以及通过调整目标模型参数最小化加权验证误差。

ARW专为以单个数据点为输入的分类和回归任务中的群体公平性设计。

《Adversarial reweighting for speaker verification fairness》探讨了如何将此概念应用于依赖成对输入样本的分类任务即检查两个语音样本是否来自同一说话人。

解决此问题有助于使基于语音的助手在个性化和需要识别说话人的其他功能上更可靠。

作者研究了几种将ARW应用于学习说话人嵌入之间相似性的方法。

最终效果最好的方法是为每对输入样本分配一个对抗性权重该权重是各个样本权重的总和从而降低了权重预测的维度。

各个样本的权重也参考了样本落入说话人嵌入空间的哪个区域通过无监督k均值聚类确定。

一旦以这种方式形式化成对对抗权重就可以将它们插入到度量学习的损失函数中这是训练说话人验证模型的基础。

最小-最大优化然后可以轮流训练预测权重的对抗网络和优化学习说话人相似性的说话人嵌入提取器。

在一个公共说话人验证语料库上所得系统将总体等错误率降低了

6%同时将性别间的差距缩小了17%。

它还将不同原籍国之间的错误率变异降低了近10%。

与ASR公平性论文一样公平性缓解既改善了性能差异也提高了整体准确性。

更多精彩内容请关注我的个人公众号公众号办公AI智能小助手或者我的个人博客 https://blog.qife

美团二面挂了！问 “用户积分系统怎么设计”，我答 “加个字段存总数”，面试官：积分过期你怎么算？

核心内容摘要

用过才敢说!专科生专属论文神器 —— 千笔·专业学术智能体

总结截至当前时间步整个话语的激活值来捕获长期相关性同时随时间增量处理话语。

关键技术。

6%同时将性别间的差距缩小了17%。

com/对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号网络安全技术点滴分享

苹果视频m8U9-苹果视频应用

📑 文章目录

🔥 热门优化文章

🛠️ 实用工具推荐

百度百家号客服电话人工服务

美团二面挂了！问 “用户积分系统怎么设计”，我答 “加个字段存总数”，面试官：积分过期你怎么算？

核心内容摘要

用过才敢说!专科生专属论文神器 —— 千笔·专业学术智能体

总结截至当前时间步整个话语的激活值来捕获长期相关性同时随时间增量处理话语。

关键技术。

6%同时将性别间的差距缩小了17%。

com/对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号网络安全技术点滴分享

苹果视频m8U9-苹果视频应用

📑 文章目录

🔥 热门优化文章

🛠️ 实用工具推荐

相关优化文章 推荐

百度百家号客服电话人工服务

相关优化文章推荐