一种基于多模理解的视听分割方法

AITNT
正文
推荐专利
一种基于多模理解的视听分割方法
申请号:CN202510357024
申请日期:2025-03-25
公开号:CN120219746A
公开日期:2025-06-27
类型:发明专利
摘要
本发明公开了一种基于多模理解的视听分割方法,具体包括:首先,分别通过视觉骨干网络和音频骨干网络提取视频图像特征和音频特征;然后利用视觉编码器对视觉特征进行深度解析,获取更深层次的视觉信息;接下来,利用视听混合模块融合视觉和音频特征,借助音频信息对目标对象特征进行强化;最后,利用多模态解码器匹配查询和最佳特征,并生成最终的分割掩码。本发明通过双塔结构模型增强了多模态语义信息的理解,并借助视听混合模块实现了模态互相监督强化,实现了更加高性能的视听分割。
技术关键词
视觉特征编码 音频特征 分割方法 视听 混合模块 解码器 计算方法 短时傅里叶变换 上采样 音视频 多层感知机 视频图像特征 多模态 通道注意力机制 输出特征 双塔结构
系统为您推荐了相关专利信息
1
一种基于AI的医院安防预警分析方法、系统
预警分析方法 三维卷积神经网络 图像 卡尔曼滤波 状态更新
2
音乐数据处理方法、装置、电子设备及存储介质
音乐特征 音乐数据处理方法 协方差特征 生成模型训练方法 生成音乐数据
3
一种真实元宇宙环境下多模态数据集的构建方法
Tomcat服务器 场景 数据 文本 客户端
4
基于误差感知自适应损失的医学图像分割方法及系统
医学图像分割方法 多模态医学图像 医学图像分割系统 动态 微调机制
5
图像分割方法、装置、设备及介质
血管 智能模型 图像分割方法 光学相干断层扫描 局部特征提取
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号