摘要
本发明公开了一种基于多模理解的视听分割方法,具体包括:首先,分别通过视觉骨干网络和音频骨干网络提取视频图像特征和音频特征;然后利用视觉编码器对视觉特征进行深度解析,获取更深层次的视觉信息;接下来,利用视听混合模块融合视觉和音频特征,借助音频信息对目标对象特征进行强化;最后,利用多模态解码器匹配查询和最佳特征,并生成最终的分割掩码。本发明通过双塔结构模型增强了多模态语义信息的理解,并借助视听混合模块实现了模态互相监督强化,实现了更加高性能的视听分割。
技术关键词
视觉特征编码
音频特征
分割方法
视听
混合模块
解码器
计算方法
短时傅里叶变换
上采样
音视频
多层感知机
视频图像特征
多模态
通道注意力机制
输出特征
双塔结构
系统为您推荐了相关专利信息
预警分析方法
三维卷积神经网络
图像
卡尔曼滤波
状态更新
音乐特征
音乐数据处理方法
协方差特征
生成模型训练方法
生成音乐数据
医学图像分割方法
多模态医学图像
医学图像分割系统
动态
微调机制
血管
智能模型
图像分割方法
光学相干断层扫描
局部特征提取