一种基于语义一致性的开放词汇视听分割方法

AITNT
正文
推荐专利
一种基于语义一致性的开放词汇视听分割方法
申请号:CN202511311730
申请日期:2025-09-15
公开号:CN120822079B
公开日期:2025-11-18
类型:发明专利
摘要
本发明属于人工智能与多模态信息处理技术领域,公开一种基于语义一致性的开放词汇视听分割方法。通过设计音频语义增强模块显式增强音频语义辨别能力,提升模型跨模态对齐与语义识别准确度,增强了视听语义分割的鲁棒性与精度。提出对称式跨模态注意力引导模块和层级模态融合解码器。通过精细化的跨模态交互与多模态解码,充分挖掘视听信息中的时空语义,促进视听特征在空间与时间维度上聚集,确保发声物体的精确定位与分类。通过联合使用CLIP与CLAP,并基于共享的真实标签对齐视听特征,本发明不仅增强了已知类别发声物体的分割性能,还通过预训练基础模型的知识,显著提升未知类别的分割与分类能力以及模型在开放词汇场景下的泛化能力。
技术关键词
音频特征 视觉特征 语义 跨模态 视听 注意力机制 文本编码器 解码器 分割方法 多层感知器 多层感知机 时序 模态特征 融合特征 发声 音频编码器
系统为您推荐了相关专利信息
1
一种利用解释性交互缓解机器人会话失败的方法
交互内容 监测机器人 交互历史 自然语言 情感分析模型
2
基于LLMs的建筑领域智能问答方法及系统
术语 词典数据库 多模态 建筑 意图识别
3
一种基于单视频的个性化数字人生成方法
语音特征提取 风格 视频 人物面部模型 掩膜
4
一种用于机载宽视场侦查载荷的弱小目标识别与定位方法
检测网络模型 图像 定位方法 注意力机制 特征提取模块
5
基于智慧旅游的音乐喷泉智能控制系统及方法
像素块 智慧旅游 特征值 序列 喷泉
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号