摘要
本申请提供了音视频多模态联合鉴伪方法、装置、电子设备及存储介质,包括:对音频信息进行语音活动检测处理得到多个语音活动音频,再对多个语音活动音频依次进行音频特征提取、音频片段起终点检测以及唇动生成,确定出音频表征向量、活动音频起终点序列以及语音驱动生成的唇动序列;对图像信息进行唇动检测、唇动起终点检测以及人脸特征提取,确定出人脸唇动序列、唇动活动起终点序列以及人脸表征向量;对音频表征向量、活动音频起终点序列、语音驱动生成的唇动序列、人脸唇动序列、唇动活动起终点序列以及人脸表征向量进行一致性检测融合处理,确定出目标视频的真伪类别,从而实现了利用双模态信息间的相关性进行鉴伪工作提升了鉴伪算法的性能。
技术关键词
鉴伪方法
序列
人脸表征
终点
音视频
多模态
语音活动检测
一致性检测
音频特征提取
人脸特征提取
鉴伪装置
机器可读指令
边界检测方法
电子设备
图像处理模块
系统为您推荐了相关专利信息
视频帧
多层感知网络
视频流
人工智能预测方法
时序
预训练语言模型
构建知识图谱
知识图谱分析
规划
项目管理平台
电磁干扰信号
主动降噪方法
磁共振设备
射频接收线圈
采集磁共振信号