摘要
本发明涉及一种语音鉴伪模型的训练方法,通过获取第一预设数量的虚假音频,获取第二预设数量的真实音频。再通过whisper预训练模型、hubert预训练模型和wav2vec2.0预训练模型分别提取虚假音频与真实音频的中间特征、时长特征与抽象特征。将中间特征、时长特征和抽象特征进行融合,生成融合特征,将融合特征输入专家模型和门控网络,得到专家模型输出与专家模型输出的权重。根据专家模型输出与专家模型输出的权重训练专家模型与门控网络,得到语音鉴伪模型。本发明结合多种预训练模型提取多层次特征,并通过Attention机制进行特征融合,可以增强模型对不同类型伪造语音的适应性,从而提高泛化能力。
技术关键词
融合特征
语音
音频
Attention机制
网络
训练设备
训练装置
多头注意力机制
多层次特征
模型训练模块
预训练模型
特征提取模块
处理器
程序
存储器
标签
噪声
参数
数据