摘要
本发明公开了一种基于质量感知与多尺度对齐的音视频深度伪造检测方法,包括如下步骤:对同步音视频序列进行编码,获得帧级视觉特征、面部动作单元与音素级语音表示;引入视觉质量评估模块生成空间可靠性掩码,对视觉特征进行质量加权;设计全局—局部多尺度跨模态对齐机制,在全局以双向跨注意力建模语音与面部动态同步,在局部将音素与面部动作单元进行生理耦合对齐;提出不确定性感知推理与校准方案,依据质量与一致性自适应温度缩放并以自监督损失进行不确定性校准。本发明解决了现有方法在低质量视频与高度同步伪造场景下鲁棒性不足及过度自信误判的问题,显著提升跨数据集泛化能力与实际部署可靠性。
技术关键词
面部动作单元
视觉特征
注意力
音视频
语义
语音
样本
跨模态
鲁棒性
面部表情变化
生理
音频特征
时序
视频帧
多尺度
动态时间规整
系统为您推荐了相关专利信息
变压器冷却系统
油泵
异常检测方法
异常检测系统
重构模块
门控循环单元
门控神经网络
语义
CRF模型
标签
面向多模态数据
文本特征向量
知识抽取方法
图像特征向量
多模态特征融合