摘要
本发明公开了一种检测与定位多模态媒体图文同步伪造的方法,本发明通过在图文编码部分,利用伪造感知对比学习对齐图像与文本的整体语义嵌入,从而更好地捕捉图像与文本之间的语义关联和潜在的不一致信息,在进行多模态融合时,通过在图文与视音频模态之间进行细粒度的语义交互与深层次的特征融合,利用视音频提供的图文上下文信息对图像特征和文本特征进行增强,从而便于更深层次地揭示图文伪造痕迹,同时通过图文同步伪造检测,实现了对图文对真实性的精准判断和图文同步伪造类型的有效识别,并通过图文同步伪造定位,实现了对图像伪造区域和文本伪造词元的高精度识别,从而使得图文同步伪造的精准检测与定位性能得到显著提升。
技术关键词
图文
视音频
多模态
文本
语义
媒体
异常检测器
交叉注意力机制
分类器
编码器
关键帧
视频
图像嵌入
样本
定位标签
局部时空特征
系统为您推荐了相关专利信息
图像特征提取模型
拼图
图像生成模型
人工智能模型
信息熵
模具模架
设计系统
混合智能优化
数字孪生建模
数据