一种基于语义一致性的开放词汇视听分割方法

正文

推荐专利

申请号：CN202511311730

申请日期：2025-09-15

公开号：CN120822079B

公开日期：2025-11-18

类型：发明专利

摘要

本发明属于人工智能与多模态信息处理技术领域，公开一种基于语义一致性的开放词汇视听分割方法。通过设计音频语义增强模块显式增强音频语义辨别能力，提升模型跨模态对齐与语义识别准确度，增强了视听语义分割的鲁棒性与精度。提出对称式跨模态注意力引导模块和层级模态融合解码器。通过精细化的跨模态交互与多模态解码，充分挖掘视听信息中的时空语义，促进视听特征在空间与时间维度上聚集，确保发声物体的精确定位与分类。通过联合使用CLIP与CLAP，并基于共享的真实标签对齐视听特征，本发明不仅增强了已知类别发声物体的分割性能，还通过预训练基础模型的知识，显著提升未知类别的分割与分类能力以及模型在开放词汇场景下的泛化能力。

技术关键词

音频特征视觉特征语义跨模态视听注意力机制文本编码器解码器分割方法多层感知器多层感知机时序模态特征融合特征发声音频编码器

系统为您推荐了相关专利信息

一种利用解释性交互缓解机器人会话失败的方法

交互内容监测机器人交互历史自然语言情感分析模型

基于LLMs的建筑领域智能问答方法及系统

术语词典数据库多模态建筑意图识别

一种基于单视频的个性化数字人生成方法

语音特征提取风格视频人物面部模型掩膜

一种用于机载宽视场侦查载荷的弱小目标识别与定位方法

检测网络模型图像定位方法注意力机制特征提取模块

基于智慧旅游的音乐喷泉智能控制系统及方法

像素块智慧旅游特征值序列喷泉

一种基于语义一致性的开放词汇视听分割方法

站点导航

APP 下载