摘要
一种基于多模态特征融合的深度伪造音视频细粒度检测方法和装置,包含一个基于多模态特征融合辅以注意力机制的神经网络模型,从单一模态和跨模态两个维度,分别对近距离的特征相似信息和远距离的特征差异信息进行整合分析,输出细粒度检测结果,其方法包括:首先,获取说话人伪造音视频数据集并进行数据预处理,用于模型的训练;然后构建本发明提出的神经网络模型,并训练至拟合;将待检测音视频进行相同的预处理操作后,输入训练完成的神经网络模型进行处理,最后由模型输出细粒度检测结果。本发明能解决对当前说话人深度伪造音视频缺乏精确细粒度检测方法的问题。
技术关键词
细粒度检测方法
多模态特征融合
神经网络模型
音频特征
视觉特征
编码器
注意力机制
多任务
特征提取模块
对音视频
远距离
数据
跨模态
系统为您推荐了相关专利信息
待测零件
智能测量方法
感兴趣区域提取
实时图像
卷积神经网络模型
神经网络模型
训练样本集
节点数
BP神经网络
信号
原始观测数据
队列模型
空闲停车位
神经网络模型
序列
池化特征
内容生成方法
视觉特征
输出特征
文本编码器