摘要
本发明公开了一种虚假视频信息检测方法、装置、介质和设备,涉及虚假视频信息检测技术领域。本发明在多模态联合表征的基础上,在空域上将提取的多模态情感特征进行粗粒度融合,并对文本语义特征和视觉语义特征进行注意力交互得到交互视觉语义特征,以根据粗粒度融合特征在扩散生成过程中,基于提取的音频情感特征和交互视觉语义特征进行生成引导,从而动态调整视觉与音频信息在增强后的细粒度融合特征中所占权重,使得在空域维度最终聚合特征时可以充分利用待检测视频所提供的多模态信息;在时域上,通过挖掘视频帧间信息,并且基于其长期依赖关系增强提取的时域特征,充分理解长序列信息,检测视频是否被篡改,提高了检测准确率。
技术关键词
语义特征
情感特征
序列特征
信息检测方法
融合特征
模态特征
文本
时域特征提取
音频特征
视频段
多模态
特征提取模型
融合视觉特征
关键帧
系统为您推荐了相关专利信息
语音翻译方法
编码特征
融合特征
文本编码器
声学特征
臭氧浓度预测方法
多站点
监测站
空间特征提取
颗粒物浓度预测技术
超声图像分割方法
深度迁移学习
语义图像分割
卷积模块
注意力机制
杂质检测方法
烟叶数据
注意力机制
输出模块
融合特征