摘要
本发明属于人工智能与多模态信息处理技术领域,公开一种基于语义一致性的开放词汇视听分割方法。通过设计音频语义增强模块显式增强音频语义辨别能力,提升模型跨模态对齐与语义识别准确度,增强了视听语义分割的鲁棒性与精度。提出对称式跨模态注意力引导模块和层级模态融合解码器。通过精细化的跨模态交互与多模态解码,充分挖掘视听信息中的时空语义,促进视听特征在空间与时间维度上聚集,确保发声物体的精确定位与分类。通过联合使用CLIP与CLAP,并基于共享的真实标签对齐视听特征,本发明不仅增强了已知类别发声物体的分割性能,还通过预训练基础模型的知识,显著提升未知类别的分割与分类能力以及模型在开放词汇场景下的泛化能力。
技术关键词
音频特征
视觉特征
语义
跨模态
视听
注意力机制
文本编码器
解码器
分割方法
多层感知器
多层感知机
时序
模态特征
融合特征
发声
音频编码器
系统为您推荐了相关专利信息
交互内容
监测机器人
交互历史
自然语言
情感分析模型
检测网络模型
图像
定位方法
注意力机制
特征提取模块