一种基于多模理解的视听分割方法

正文

推荐专利

一种基于多模理解的视听分割方法

申请号：CN202510357024

申请日期：2025-03-25

公开号：CN120219746A

公开日期：2025-06-27

类型：发明专利

摘要

本发明公开了一种基于多模理解的视听分割方法，具体包括：首先，分别通过视觉骨干网络和音频骨干网络提取视频图像特征和音频特征；然后利用视觉编码器对视觉特征进行深度解析，获取更深层次的视觉信息；接下来，利用视听混合模块融合视觉和音频特征，借助音频信息对目标对象特征进行强化；最后，利用多模态解码器匹配查询和最佳特征，并生成最终的分割掩码。本发明通过双塔结构模型增强了多模态语义信息的理解，并借助视听混合模块实现了模态互相监督强化，实现了更加高性能的视听分割。

技术关键词

视觉特征编码音频特征分割方法视听混合模块解码器计算方法短时傅里叶变换上采样音视频多层感知机视频图像特征多模态通道注意力机制输出特征双塔结构

系统为您推荐了相关专利信息

一种基于AI的医院安防预警分析方法、系统

预警分析方法三维卷积神经网络图像卡尔曼滤波状态更新

音乐数据处理方法、装置、电子设备及存储介质

音乐特征音乐数据处理方法协方差特征生成模型训练方法生成音乐数据

一种真实元宇宙环境下多模态数据集的构建方法

Tomcat服务器场景数据文本客户端

基于误差感知自适应损失的医学图像分割方法及系统

医学图像分割方法多模态医学图像医学图像分割系统动态微调机制

图像分割方法、装置、设备及介质

血管智能模型图像分割方法光学相干断层扫描局部特征提取

一种基于多模理解的视听分割方法

站点导航

APP 下载