基于多视角的模态缺失鲁棒音视频自监督学习方法及装置

AITNT
正文
推荐专利
基于多视角的模态缺失鲁棒音视频自监督学习方法及装置
申请号:CN202510791502
申请日期:2025-06-13
公开号:CN120635264A
公开日期:2025-09-12
类型:发明专利
摘要
本发明提供一种基于多视角的模态缺失鲁棒音视频自监督学习方法及装置,包括通过三维头像重建生成多视角唇动视频数据;将多视角和模态缺失处理后的音视频特征输入编码器,提取多视角一致和模态缺失适应的多模态特征;解码器接收多模态特征,应用于下游语音相关任务。本发明解决了多模态音视频语音识别系统在多视角变化、视频模态缺失情况下性能急剧下降的问题,在视频模态缺失时,基于音频特征重建音视频联合特征。采用本发明方法,可以有效提高存在不同视角和视频模态缺失情况下多模态语音处理相关任务的鲁棒性。
技术关键词
多视角 监督学习方法 音视频 音频特征 多模态特征 非暂态计算机可读存储介质 三维形变模型 解码器 头部姿态估计 语音识别系统 头像 编码器 处理器 解码结构 鲁棒性 计算机程序产品 注意力机制
系统为您推荐了相关专利信息
1
基于多模态大语言模型的体育视频解说生成方法及系统
大语言模型 体育 记忆单元 文本 音频
2
一种多模态情绪识别方法
多模态情绪 数据 音频特征 视觉特征 情绪识别方法
3
一种统一的多模态红外与可见光图像融合与转换方法
可见光图像 转换方法 对齐模块 解码模块 多模态特征融合
4
一种引水隧洞软岩支护结构多目标智能优化方法
引水隧洞 智能优化方法 支护结构 隧洞开挖支护 混凝土喷层厚度
5
基于大模型的酒驾预警方法、系统及存储介质
多模态特征 语音特征 面部特征 预警方法 预测特征
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号