摘要
本发明公开了一种基于改进Swin Transformer的视听目标分割方法,涉及语音识别技术领域。改进Swin Transformer是基于滑窗多头自注意力变换机制的深度神经网络,增强了特征提取网络的全局建模能力以及长距离语义信息的获取效率,改善了底层特征提取能力和高级语义信息的抽象效果;本发明应用语音编码器以及视觉编码器将语音特征和视觉特征映射到统一语义空间,然后通过AFI模块进行模态之间的语义关联以及特征对齐;本发明提出了多模态融合,即将语音识别与视频处理相结合,能够实现多模态信息融合,从而提高整体的系统性能和鲁棒性,不仅可以提供丰富的上下文信息,还能够提升系统的精度和实时处理能力,为各类应用场景提供更优质的解决方案。
技术关键词
音频特征信息
图像特征信息
识别方法
视听
视频帧特征
视觉特征
上采样
多模态信息融合
图片特征信息
特征融合技术
语义
注意力
分割方法
卷积模块
短时傅里叶变换
特征提取能力
系统为您推荐了相关专利信息
OCR识别方法
语义角色标注
融合多源信息
在线增量学习
上下文特征