一种基于内容相关的帧级说话人声纹建模的语音匿名化方法

正文

推荐专利

申请号：CN202510039325

申请日期：2025-01-10

公开号：CN119851670B

公开日期：2025-09-23

类型：发明专利

摘要

本发明公开了一种基于内容相关的帧级说话人声纹建模的语音匿名化方法，使用自动语音识别声学模型从源语音和参考语音中提取瓶颈特征作为语义内容的表征；引入注意力模块对齐参考语音和源语音之间的内容向量；从参考语音中提取梅尔频谱图，通过说话人声纹编码器，得到帧级伪说话人声纹表征，然后作为键值输入到所引入的注意力模块，通过注意力机制实现参考语音中的声纹嵌入的加权和；将从源语音中提取的语义内容向量和基频值，以及目标语音中的帧级伪说话人声纹表征，一起输入到语音生成的解码器中，生成匿名语音。该方法能使匿名化语音更彻底地去除说话人的个人身份信息，提升伪说话人语音的独特性，提升合成语音的质量与可理解性。

技术关键词

匿名化方法瓶颈特征语义特征说话人身份信息梅尔频率倒谱系数注意力机制语音编解码解码器编码器代表键值模块时延波形变量

系统为您推荐了相关专利信息

一种流量采集系统、威胁分析方法及策略生成方法

融合特征威胁分析方法流量采集系统智能体平台自定义策略

一种用于神经网络模型测试的图像生成方法

图像生成方法神经网络模型敏感性分析算法投影算法识别误差

人机互动方法、装置、电子设备及介质

人机互动方法情绪识别模型情感特征文本特征向量语音

信息生成方法、装置、设备、介质及程序产品

信息生成方法计算机程序指令信息项信息生成装置计算机程序产品

一种基于多维级联知识抽取的核电建造经验反馈方法

反馈方法关系抽取模型级联双向长短期记忆网络融合注意力机制

一种基于内容相关的帧级说话人声纹建模的语音匿名化方法

站点导航

APP 下载