一种基于音视频多模态融合的深度伪造检测方法及系统

AITNT
正文
推荐专利
一种基于音视频多模态融合的深度伪造检测方法及系统
申请号:CN202510666856
申请日期:2025-05-22
公开号:CN120580481A
公开日期:2025-09-02
类型:发明专利
摘要
本发明属于多媒体安全技术领域,特别涉及一种基于音视频多模态融合的深度伪造检测方法及系统。方法包括通过动态ROI裁剪从视频流中提取唇部运动时空特征,依次通过快速傅里叶变换和梅尔滤波器组处理音频流得到音频频谱特征;基于取唇部运动时空特征重构生成对应的音频特征,采用双向跨模态注意力机制对音频频谱特征与生成的音频特征进行融合得到注意力融合特征;获取音频流的梅尔频谱图,利用由卷积层构成的特征提取模型分别从梅尔频谱图、视频流中提取不同尺度的特征图进行融合得到多尺度特征;根据注意力融合特征和多尺度融合特征展平后在通道维度拼接后进行加权融合,通过多层感知机输出一个伪造概率。本发明提高视频检测性能。
技术关键词
融合特征 频谱特征 音频特征 多尺度特征 多层感知机 视频流 特征提取模型 注意力机制 视觉 跨模态 重构 音视频 多模态 运动 光流法 动态时间规整 基频轮廓 唇动特征
系统为您推荐了相关专利信息
1
一种基于实时数据的航空设备维护管理系统
航空设备 实时数据 分数阶 参数 管理系统
2
一种电-氢-热系统一体化运行管控方法
热系统 管控方法 电解槽 电解制氢装置 神经网络模型构建
3
基于分层多尺度CNN-Transformer的医学图像分割方法及装置
编码特征 医学图像分割模型 阶段 医学图像分割方法 注意力
4
基于多模态多层注意力网络的油气管道漏磁缺陷识别方法
多层注意力 管道漏磁 缺陷识别方法 多模态特征融合 信号特征
5
全固态发射机脉冲调制波形的频谱控制方法
编码向量 语义特征 频谱控制方法 模板 序列
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号