一种基于提示学习的多模态深度伪造视频检测装置及方法

正文

推荐专利

申请号：CN202510014022

申请日期：2025-01-06

公开号：CN120047865A

公开日期：2025-05-27

类型：发明专利

摘要

本发明公开了一种基于提示学习的多模态深度伪造视频检测装置及方法，包括将输入的视频数据切分成小片段，并提取视觉内容和音频信号；采用视觉深伪特征提取和预测模块进行视觉深伪特征提取并预测视觉模态的真伪；采用音频深伪特征提取和预测模块提取音频深伪特征并预测音频模态的真伪；多模态特征对齐模块，用于将视觉特征和音频特征在时间维度上进行对齐；跨模态特征匹配模块，用于将视频特征和音频特征进行帧级匹配，学习细粒度的音视频一致性特征；视频预测模块，用于多模态特征融合并预测视频的真伪。本发明针对多模态深度伪造视频设计了端到端的伪造检测装置，能够更有效的应对多模态伪造检测任务，提高视频造假的难度。

技术关键词

音频特征伪造视频检测方法视频检测装置音频采样对齐模块多模态特征融合视觉特征提取样本匹配模块音视频声谱分类网络跨模态输出特征

系统为您推荐了相关专利信息

一种基于概率的多监视源目标的融合权重处理方法与装置

航迹信息对齐模块多模型滤波平滑算法卡尔曼滤波

一种基于注意力机制的水声生物目标识别方法

识别方法样本采样率高斯核函数生物

基于多模型间交互反馈的诊疗方法及装置

自然语言信息诊疗方法门控开关大语言模型多模型

基于Conformer的水下滑翔机声学数据处理方法及存储介质

水下滑翔机数据处理方法动态位置编码多任务分类音频特征

车辆后排乘员的脚部空间设计方法、装置、介质及设备

人体模型脚部空间乘员空间设计方法脚部尺寸

一种基于提示学习的多模态深度伪造视频检测装置及方法

站点导航

APP 下载