摘要
本公开提供一种基于多模态行为一致性的伪造人脸视频检测方法及装置、电子设备、存储介质及程序产品。所述方法包括:从包括待检测视频信号提取语音特征、面部表情特征和头部动作特征;识别语音情感、面部情感和语义情感;基于各种情感的VAD值序列,计算各种情感之间的情感一致性特征和情感同步性特征,并计算语义内容与面部情感和语音情感之间的情感语义一致性特征;构建跨模态时间依赖图,得到交互特征;利用层次化注意力网络处理语音特征、面部表情特征和头部动作特征,得到时序特征;形成多维度的融合特征向量;利用预设的二分类器处理融合特征向量,得到指示待检测视频信号是否为伪造人脸视频的分类结果。
技术关键词
面部表情特征
语音特征
动作特征
人脸视频检测
识别语音情感
交互特征
语义
样本
跨模态
面部关键点
卷积网络模型
时序特征
同步性
面部动作单元
特征提取模块
关系建模
动态时间规整算法
判决模块
系统为您推荐了相关专利信息
模态特征
交叉注意力机制
情感识别方法
多模态情感识别
文本
说话人识别
音频编码
语音识别模型
音频解码
语音特征
特征提取单元
媒体流
生成系统
交叉注意力机制
语音特征提取