摘要
本发明提供一种基于多视角的模态缺失鲁棒音视频自监督学习方法及装置,包括通过三维头像重建生成多视角唇动视频数据;将多视角和模态缺失处理后的音视频特征输入编码器,提取多视角一致和模态缺失适应的多模态特征;解码器接收多模态特征,应用于下游语音相关任务。本发明解决了多模态音视频语音识别系统在多视角变化、视频模态缺失情况下性能急剧下降的问题,在视频模态缺失时,基于音频特征重建音视频联合特征。采用本发明方法,可以有效提高存在不同视角和视频模态缺失情况下多模态语音处理相关任务的鲁棒性。
技术关键词
多视角
监督学习方法
音视频
音频特征
多模态特征
非暂态计算机可读存储介质
三维形变模型
解码器
头部姿态估计
语音识别系统
头像
编码器
处理器
解码结构
鲁棒性
计算机程序产品
注意力机制
系统为您推荐了相关专利信息
多模态情绪
数据
音频特征
视觉特征
情绪识别方法
可见光图像
转换方法
对齐模块
解码模块
多模态特征融合
引水隧洞
智能优化方法
支护结构
隧洞开挖支护
混凝土喷层厚度
多模态特征
语音特征
面部特征
预警方法
预测特征