摘要
本发明公开了一种基于内容相关的帧级说话人声纹建模的语音匿名化方法,使用自动语音识别声学模型从源语音和参考语音中提取瓶颈特征作为语义内容的表征;引入注意力模块对齐参考语音和源语音之间的内容向量;从参考语音中提取梅尔频谱图,通过说话人声纹编码器,得到帧级伪说话人声纹表征,然后作为键值输入到所引入的注意力模块,通过注意力机制实现参考语音中的声纹嵌入的加权和;将从源语音中提取的语义内容向量和基频值,以及目标语音中的帧级伪说话人声纹表征,一起输入到语音生成的解码器中,生成匿名语音。该方法能使匿名化语音更彻底地去除说话人的个人身份信息,提升伪说话人语音的独特性,提升合成语音的质量与可理解性。
技术关键词
匿名化方法
瓶颈特征
语义特征
说话人身份信息
梅尔频率倒谱系数
注意力机制
语音编解码
解码器
编码器
代表
键值
模块
时延
波形
变量
系统为您推荐了相关专利信息
融合特征
威胁分析方法
流量采集系统
智能体平台
自定义策略
图像生成方法
神经网络模型
敏感性分析算法
投影算法
识别误差
人机互动方法
情绪识别模型
情感特征
文本特征向量
语音
信息生成方法
计算机程序指令
信息项
信息生成装置
计算机程序产品
反馈方法
关系抽取模型
级联
双向长短期记忆网络
融合注意力机制