一种基于隐式反事实学习的视听分割方法

正文

推荐专利

一种基于隐式反事实学习的视听分割方法

申请号：CN202510793350

申请日期：2025-06-13

公开号：CN120689799A

公开日期：2025-09-23

类型：发明专利

摘要

本发明公开了一种基于隐式反事实学习的视听分割方法，提出了隐式反事实框架，以实现无偏的跨模态理解。由于缺乏语义信息，异构表示可能导致错误匹配，尤其是在视觉内容模糊或受多音频源干扰的复杂场景中。本发明引入了多粒度隐式文本，包括视频级、片段级和帧级，作为建立模态共享空间的桥梁，减少模态差距并提供先验指导。视觉内容通常携带更多信息并占据主导地位，从而在决策中边缘化音频特征。为了缓解知识偏好，本发明提出了语义反事实，在潜在空间中学习正交表示，生成多样化的反事实样本，从而避免因复杂功能设计和显式修改文本结构或属性而引入的偏差。本发明进一步提出了协作分布感知对比学习，结合事实‑反事实和跨模态对比对齐表示，促进内聚性并实现解耦。在三个公开数据集上的广泛实验验证了所提出方法达到了最先进的性能。

技术关键词

音频特征分割方法视听视频短时傅里叶变换音频编码器分割系统构建相关矩阵样本生成多尺度信息熵语义文本编码器多尺度特征解码器像素视觉特征

系统为您推荐了相关专利信息

基于因子图的LIDAR/UWB/INS紧耦合室内定位方法

室内定位方法特征点集合点云分割方法信息熵动态校正

多源电子信息融合的博物馆智能监控系统

博物馆智能环境传感器数据视频监控数据密度分布特征安防设备启动

基于多模态大语言模型对特定行业进行关系抽取的方法

语义知识库大语言模型实体关系文本

一种文本分割方法、装置、设备及其存储介质

文本分割方法序列文本处理模型位置编码信息计算机可读指令

一种基于先验内容的轻量化视频多目标跟踪方法及系统

跟踪方法视频解码器前馈神经网络跟踪系统

一种基于隐式反事实学习的视听分割方法

站点导航

APP 下载