一种基于改进Swin Transformer的视听目标分割方法

正文

推荐专利

申请号：CN202510326670

申请日期：2025-03-19

公开号：CN120198837B

公开日期：2025-11-18

类型：发明专利

摘要

本发明公开了一种基于改进Swin Transformer的视听目标分割方法，涉及语音识别技术领域。改进Swin Transformer是基于滑窗多头自注意力变换机制的深度神经网络，增强了特征提取网络的全局建模能力以及长距离语义信息的获取效率，改善了底层特征提取能力和高级语义信息的抽象效果；本发明应用语音编码器以及视觉编码器将语音特征和视觉特征映射到统一语义空间，然后通过AFI模块进行模态之间的语义关联以及特征对齐；本发明提出了多模态融合，即将语音识别与视频处理相结合，能够实现多模态信息融合，从而提高整体的系统性能和鲁棒性，不仅可以提供丰富的上下文信息，还能够提升系统的精度和实时处理能力，为各类应用场景提供更优质的解决方案。

技术关键词

音频特征信息图像特征信息识别方法视听视频帧特征视觉特征上采样多模态信息融合图片特征信息特征融合技术语义注意力分割方法卷积模块短时傅里叶变换特征提取能力

系统为您推荐了相关专利信息

一种自适应OCR识别方法、系统、设备及介质

OCR识别方法语义角色标注融合多源信息在线增量学习上下文特征

一种基于微多普勒效应的空中直升机目标检测识别方法

微多普勒效应检测识别方法直升机回波信噪比

一种电缆及其绝缘层裂痕的识别方法

涡流探头仿真模型探头模块基础数据

一种基于智能驾驶的环境感知增强方法及系统

三维点云数据激光雷达障碍物多尺度特征物体

一种含水层储气库建库驱替前缘识别方法

网格驱替前缘识别方法界面层速度模型

一种基于改进Swin Transformer的视听目标分割方法

站点导航

APP 下载