摘要
本发明公开了一种基于背景噪音的合成语音检测方法、装置及存储介质,属于深度学习技术领域。该方法包括:采用编码器从原始音频中提取包含复合特征的样本编码;将样本编码输入RVQs中进行特征提取,采用隐元模型指导VQ1提取样本编码中的语义特征,并通过RVQs的残差结构将语义特征从复合特征中剥离,得到纯净声学特征;采用自然语言3代模型指导VQ2和VQ3分别提取纯净声学特征中的韵律特征和说话人信息,并将韵律特征和说话人信息从纯净声学特征中剥离,获得纯净的背景噪音信息;将背景噪音信息输入检测模型中进行语音检测,判定原始音频是否为合成音频。提高了检测效率与准确率,并确保了隐私保护和数据安全的平衡。
技术关键词
语音检测方法
声学特征
韵律特征
语义特征
残差结构
自然语言
注意力
样本
矢量量化
特征提取模块
语音检测装置
编码器
标记
深度学习技术
分类器
音频特征
数据安全
系统为您推荐了相关专利信息
语义特征
图谱生成方法
节点
彩色图像
语义信息提取
物体位姿估计方法
查询特征
位姿估计系统
队列
多尺度语义特征
边界特征
模型构建方法
语义特征
多尺度特征融合
图像
资产数据处理系统
编码向量
分布式架构
单体
资产数据处理方法
交叉注意力机制
轮廓检测方法
多尺度语义特征
空间变换网络
多尺度特征金字塔