摘要
本发明公开了一种伪造语音原话者溯源模型构建方法,应用于人工智能与计算机安全技术领域。包括以下步骤:使用声纹编码器,将伪造音频样本转换为粗颗粒度的声纹特征样本;构建Transformer‑CLAP分层提纯模块,采用特征聚焦、层级融合、对比学习,得到提纯后的目标话者声纹特征;构建3级RCB残差校正模块,结合原话者身份分类器,逆向推导并恢复原话者身份标识;采用三阶段训练策略,训练得到伪造语音原话者溯源模型。本发明旨在提供一种高精度的声纹逆向恢复技术方案,以便于溯源伪造语音原话者的身份信息,对语音伪造技术的滥用行为形成震慑。
技术关键词
声纹特征
模型构建方法
话者声纹
校正模块
语音
提纯
矩阵
样本
分层
注意力机制
编码器
融合多尺度特征
学习特征
身份
局部细节特征
频域特征
代表
分类器
音频
系统为您推荐了相关专利信息
多模态交互方法
资源分配策略
深度学习模型
资源分配参数
模式
非授权
声纹特征
会场
权限管理方法
辅助管理模块
评定方法
深度卷积神经网络模型
高分辨率摄像头
高清动态捕捉摄像头
面部表情特征
谐波特征
超分辨率模型
频谱特征
超分辨率方法
卷积模块