摘要
本发明公开了一种基于隐式反事实学习的视听分割方法,提出了隐式反事实框架,以实现无偏的跨模态理解。由于缺乏语义信息,异构表示可能导致错误匹配,尤其是在视觉内容模糊或受多音频源干扰的复杂场景中。本发明引入了多粒度隐式文本,包括视频级、片段级和帧级,作为建立模态共享空间的桥梁,减少模态差距并提供先验指导。视觉内容通常携带更多信息并占据主导地位,从而在决策中边缘化音频特征。为了缓解知识偏好,本发明提出了语义反事实,在潜在空间中学习正交表示,生成多样化的反事实样本,从而避免因复杂功能设计和显式修改文本结构或属性而引入的偏差。本发明进一步提出了协作分布感知对比学习,结合事实‑反事实和跨模态对比对齐表示,促进内聚性并实现解耦。在三个公开数据集上的广泛实验验证了所提出方法达到了最先进的性能。
技术关键词
音频特征
分割方法
视听
视频
短时傅里叶变换
音频编码器
分割系统
构建相关矩阵
样本
生成多尺度
信息熵
语义
文本编码器
多尺度特征
解码器
像素
视觉特征
系统为您推荐了相关专利信息
室内定位方法
特征点集合
点云分割方法
信息熵
动态校正
博物馆智能
环境传感器数据
视频监控数据
密度分布特征
安防设备启动
文本分割方法
序列
文本处理模型
位置编码信息
计算机可读指令