基于质量感知与多尺度对齐的音视频深度伪造检测方法

AITNT
正文
推荐专利
基于质量感知与多尺度对齐的音视频深度伪造检测方法
申请号:CN202511122479
申请日期:2025-08-12
公开号:CN121009341A
公开日期:2025-11-25
类型:发明专利
摘要
本发明公开了一种基于质量感知与多尺度对齐的音视频深度伪造检测方法,包括如下步骤:对同步音视频序列进行编码,获得帧级视觉特征、面部动作单元与音素级语音表示;引入视觉质量评估模块生成空间可靠性掩码,对视觉特征进行质量加权;设计全局—局部多尺度跨模态对齐机制,在全局以双向跨注意力建模语音与面部动态同步,在局部将音素与面部动作单元进行生理耦合对齐;提出不确定性感知推理与校准方案,依据质量与一致性自适应温度缩放并以自监督损失进行不确定性校准。本发明解决了现有方法在低质量视频与高度同步伪造场景下鲁棒性不足及过度自信误判的问题,显著提升跨数据集泛化能力与实际部署可靠性。
技术关键词
面部动作单元 视觉特征 注意力 音视频 语义 语音 样本 跨模态 鲁棒性 面部表情变化 生理 音频特征 时序 视频帧 多尺度 动态时间规整
系统为您推荐了相关专利信息
1
一种X:M动态注意力稀疏方法及装置
索引 注意力 稀疏方法 处理单元 ASIC芯片
2
一种基于语义分割的飞机跑道自动标注方法
飞机跑道 标注方法 轮廓 语义分割模型 机场跑道
3
变压器冷却系统油泵异常检测方法、系统、设备及介质
变压器冷却系统 油泵 异常检测方法 异常检测系统 重构模块
4
事件抽取与语义信息增强方法及装置
门控循环单元 门控神经网络 语义 CRF模型 标签
5
面向多模态数据的电力设备运检知识抽取方法及相关装置
面向多模态数据 文本特征向量 知识抽取方法 图像特征向量 多模态特征融合
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号