核心内容摘要
我爱我:一场关于自我接纳的温柔革命_2
将一段语音输入深度神经网络网络输出为训练集中各个发音人的分类结果。
网络训练的目标是让正确发音人的输出更大其他人的输出更小从而学习到哪些声音特征能区分不同的人。
基于深度神经网络的声纹识别模型示意图但是此模型只能识别训练集内的说话人。
若要实现“开放式”识别即识别任何新说话人通常会取网络倒数第二层或最后一层的激活值作为说话人向量用来表示输入语音的说话人特征。
这样就能将一个人的发音映射到一个固定维度的向量空间里。
将一段语音输入深度神经网络网络输出为训练集中各个发音人的分类结果。
网络训练的目标是让正确发音人的输出更大其他人的输出更小从而学习到哪些声音特征能区分不同的人。
基于深度神经网络的声纹识别模型示意图但是此模型只能识别训练集内的说话人。
若要实现“开放式”识别即识别任何新说话人通常会取网络倒数第二层或最后一层的激活值作为说话人向量用来表示输入语音的说话人特征。
这样就能将一个人的发音映射到一个固定维度的向量空间里。