摘要
本发明涉及网络安全技术等领域,公开了一种用于时间伪造定位的多模态深度伪造检测模型,在于解决现有检测方法中对细微尺度伪造特征表示不足的问题以及现有方法不能有效捕捉图像伪造伪影的问题;包括视觉特征提取模块和音频特征提取模块所构成的特征提取模块;通过构建注意力图的方式在特征通道维度中融合视觉特征表示和音频特征表示的自适应多模态特征融合模块;对视觉特征表示和音频特征表示进行处理得到视觉帧级预测标签和音频帧级预测标签的帧分类模块;及通过对视觉特征表示、音频特征表示、多模态融合特征、视觉帧级预测标签和音频帧级预测标签进行处理,得到最终的伪造边界预测的边界定位模块。
技术关键词
多模态特征融合
特征提取模块
音频特征提取
视觉特征提取
融合特征
序列
融合视觉特征
标签
注意力
通道
定位模块
色彩
短时傅里叶变换
图像
系统为您推荐了相关专利信息
网络单元
摘要生成方法
记忆
神经网络架构
注意力机制
解剖结构分割
卷积神经网络模块
视频帧
解码模块
医学
图文检索方法
图像匹配
文本
生成图文
生成图像特征
工程塑料表面
多尺度滑动窗口
跨模态融合特征
注塑机
视觉特征提取