摘要
本发明公开了一种面向视听不同步场景的多模态深度伪造检测方法及系统,通过融合层级跨模态语义相似性的多模态子空间表示,创新性地解决了视听数据在分布上的不一致性和表征上的异构性问题,通过层次化的语义相似性建模,能够有效对齐视听模态特征,并确保每个模态的特征信息能够在统一的子空间中得到优化表达。模型可以处理视听模态特征之间的差异,使得跨模态特征能够更好地融合,提升了模态间的关联性。不仅增强了深度伪造检测模型在复杂场景下的鲁棒性,还大幅提升了伪造视频的识别精度,尤其在多模态信息相互独立或不完全的情况下,依然能保持较高的识别能力。
技术关键词
视觉特征
模态特征
听觉
视听
注意力机制
场景
特征提取模块
视频
层级
跨模态
匈牙利算法
语义
编码器
序列
关系
阶段
鲁棒性
线性
系统为您推荐了相关专利信息
图像分割方法
多层次特征融合
双向特征金字塔
CT图像数据
模块
自动分割方法
脑肿瘤医学影像
深度学习模型
多模态脑肿瘤
多头注意力机制