摘要
本发明公开了基于原始波形与协同理解的智能合成歌声检测方法及系统,涉及信息取证安全与人工智能技术领域,使用音乐源分离模型Demucs对歌声样本进行分离,得到纯人声和伴奏声;将伴奏声送入伴奏声码器,提取伴奏序列特征;将纯人声送入人声编码器,提取人声序列特征;同步将人声原始波形送入正交编码器,提取基于原始波形的底层序列特征;并采用自注意力机制进行歌声特征聚合;将聚合后的特征送入基于图的后端,得到对应的第一样本置信度得分,同时将基于原始波形的底层特征并行送入基于图的后端,得到对应的第二样本置信度得分;对第一和第二样本置信度得分进行分数级融合,得到最终检测结果,有效地提高了模型在各种条件下的检测能力。
技术关键词
人声
序列特征
编码器
波形
样本
语音活动检测
音乐
更新模型参数
矢量量化
检测损失
人工智能技术
数据处理模块
组合模块
注意力机制
声码器
教师
系统为您推荐了相关专利信息
燃料组件
特征检测方法
表面图像数据
表面特征检测装置
融合图像特征
关系联合抽取方法
文本
LSTM模型
二维灰度图像
实体
预警方法
皮尔逊相关系数
配电变压器
主成分分析法
负荷
原型
加权分数傅里叶变换
光谱特征提取
空间特征提取
空谱特征