一种基于隐式反事实学习的视听分割方法

AITNT
正文
推荐专利
一种基于隐式反事实学习的视听分割方法
申请号:CN202510793350
申请日期:2025-06-13
公开号:CN120689799A
公开日期:2025-09-23
类型:发明专利
摘要
本发明公开了一种基于隐式反事实学习的视听分割方法,提出了隐式反事实框架,以实现无偏的跨模态理解。由于缺乏语义信息,异构表示可能导致错误匹配,尤其是在视觉内容模糊或受多音频源干扰的复杂场景中。本发明引入了多粒度隐式文本,包括视频级、片段级和帧级,作为建立模态共享空间的桥梁,减少模态差距并提供先验指导。视觉内容通常携带更多信息并占据主导地位,从而在决策中边缘化音频特征。为了缓解知识偏好,本发明提出了语义反事实,在潜在空间中学习正交表示,生成多样化的反事实样本,从而避免因复杂功能设计和显式修改文本结构或属性而引入的偏差。本发明进一步提出了协作分布感知对比学习,结合事实‑反事实和跨模态对比对齐表示,促进内聚性并实现解耦。在三个公开数据集上的广泛实验验证了所提出方法达到了最先进的性能。
技术关键词
音频特征 分割方法 视听 视频 短时傅里叶变换 音频编码器 分割系统 构建相关矩阵 样本 生成多尺度 信息熵 语义 文本编码器 多尺度特征 解码器 像素 视觉特征
系统为您推荐了相关专利信息
1
基于因子图的LIDAR/UWB/INS紧耦合室内定位方法
室内定位方法 特征点集合 点云分割方法 信息熵 动态校正
2
多源电子信息融合的博物馆智能监控系统
博物馆智能 环境传感器数据 视频监控数据 密度分布特征 安防设备启动
3
基于多模态大语言模型对特定行业进行关系抽取的方法
语义知识库 大语言模型 实体 关系 文本
4
一种文本分割方法、装置、设备及其存储介质
文本分割方法 序列 文本处理模型 位置编码信息 计算机可读指令
5
一种基于先验内容的轻量化视频多目标跟踪方法及系统
跟踪方法 视频 解码器 前馈神经网络 跟踪系统
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号