一种基于音视频多模态融合的深度伪造检测方法及系统

正文

推荐专利

申请号：CN202510666856

申请日期：2025-05-22

公开号：CN120580481A

公开日期：2025-09-02

类型：发明专利

摘要

本发明属于多媒体安全技术领域，特别涉及一种基于音视频多模态融合的深度伪造检测方法及系统。方法包括通过动态ROI裁剪从视频流中提取唇部运动时空特征，依次通过快速傅里叶变换和梅尔滤波器组处理音频流得到音频频谱特征；基于取唇部运动时空特征重构生成对应的音频特征，采用双向跨模态注意力机制对音频频谱特征与生成的音频特征进行融合得到注意力融合特征；获取音频流的梅尔频谱图，利用由卷积层构成的特征提取模型分别从梅尔频谱图、视频流中提取不同尺度的特征图进行融合得到多尺度特征；根据注意力融合特征和多尺度融合特征展平后在通道维度拼接后进行加权融合，通过多层感知机输出一个伪造概率。本发明提高视频检测性能。

技术关键词

融合特征频谱特征音频特征多尺度特征多层感知机视频流特征提取模型注意力机制视觉跨模态重构音视频多模态运动光流法动态时间规整基频轮廓唇动特征

系统为您推荐了相关专利信息

一种基于实时数据的航空设备维护管理系统

航空设备实时数据分数阶参数管理系统

一种电-氢-热系统一体化运行管控方法

热系统管控方法电解槽电解制氢装置神经网络模型构建

基于分层多尺度CNN-Transformer的医学图像分割方法及装置

编码特征医学图像分割模型阶段医学图像分割方法注意力

基于多模态多层注意力网络的油气管道漏磁缺陷识别方法

多层注意力管道漏磁缺陷识别方法多模态特征融合信号特征

全固态发射机脉冲调制波形的频谱控制方法

编码向量语义特征频谱控制方法模板序列

一种基于音视频多模态融合的深度伪造检测方法及系统

站点导航

APP 下载