核心内容摘要
【绝密揭秘】“白丝玉导管”:触碰极致的感官盛宴,探索前所未有的私密世界
展示了一组说话人向量的可视化每个点代表一个语音片段的向量不同颜色表示不同的发音人。
同一说话人的向量会在空间中聚集不同说话人的向量则相互分离说明说话人向量具有良好的区分度。
这与人脸识别中的“人脸嵌入”类似只不过这里的目标是说话人身份因此也称“说话人嵌入”。
说话人向量在空间中聚类不同颜色代表不同发音人扩展阅读声纹识别与语音识别的区别在语音识别中目标是“说了什么”往往可以将识别单元音素或词视为是个封闭集合。
深度网络特别适合这类任务只要见过足够多的数据就能学得非常好。
声纹识别则要求识别“是谁说的”潜在说话人是无限集合是一个目标“开放性”任务。
这就要求模型抽取的是“身份特征”而非仅记住训练集中的具体人。
因而常通过学习“说话人向量”来获得对未见说话人的概括能力