一种基于改进Swin Transformer的视听目标分割方法

AITNT
正文
推荐专利
一种基于改进Swin Transformer的视听目标分割方法
申请号:CN202510326670
申请日期:2025-03-19
公开号:CN120198837B
公开日期:2025-11-18
类型:发明专利
摘要
本发明公开了一种基于改进Swin Transformer的视听目标分割方法,涉及语音识别技术领域。改进Swin Transformer是基于滑窗多头自注意力变换机制的深度神经网络,增强了特征提取网络的全局建模能力以及长距离语义信息的获取效率,改善了底层特征提取能力和高级语义信息的抽象效果;本发明应用语音编码器以及视觉编码器将语音特征和视觉特征映射到统一语义空间,然后通过AFI模块进行模态之间的语义关联以及特征对齐;本发明提出了多模态融合,即将语音识别与视频处理相结合,能够实现多模态信息融合,从而提高整体的系统性能和鲁棒性,不仅可以提供丰富的上下文信息,还能够提升系统的精度和实时处理能力,为各类应用场景提供更优质的解决方案。
技术关键词
音频特征信息 图像特征信息 识别方法 视听 视频帧特征 视觉特征 上采样 多模态信息融合 图片特征信息 特征融合技术 语义 注意力 分割方法 卷积模块 短时傅里叶变换 特征提取能力
系统为您推荐了相关专利信息
1
一种自适应OCR识别方法、系统、设备及介质
OCR识别方法 语义角色标注 融合多源信息 在线增量学习 上下文特征
2
一种基于微多普勒效应的空中直升机目标检测识别方法
微多普勒效应 检测识别方法 直升机 回波 信噪比
3
一种电缆及其绝缘层裂痕的识别方法
涡流探头 仿真模型 探头模块 基础 数据
4
一种基于智能驾驶的环境感知增强方法及系统
三维点云数据 激光雷达 障碍物 多尺度特征 物体
5
一种含水层储气库建库驱替前缘识别方法
网格 驱替前缘 识别方法 界面 层速度模型
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号