基于多视角的模态缺失鲁棒音视频自监督学习方法及装置

正文

推荐专利

申请号：CN202510791502

申请日期：2025-06-13

公开号：CN120635264A

公开日期：2025-09-12

类型：发明专利

摘要

本发明提供一种基于多视角的模态缺失鲁棒音视频自监督学习方法及装置，包括通过三维头像重建生成多视角唇动视频数据；将多视角和模态缺失处理后的音视频特征输入编码器，提取多视角一致和模态缺失适应的多模态特征；解码器接收多模态特征，应用于下游语音相关任务。本发明解决了多模态音视频语音识别系统在多视角变化、视频模态缺失情况下性能急剧下降的问题，在视频模态缺失时，基于音频特征重建音视频联合特征。采用本发明方法，可以有效提高存在不同视角和视频模态缺失情况下多模态语音处理相关任务的鲁棒性。

技术关键词

多视角监督学习方法音视频音频特征多模态特征非暂态计算机可读存储介质三维形变模型解码器头部姿态估计语音识别系统头像编码器处理器解码结构鲁棒性计算机程序产品注意力机制

系统为您推荐了相关专利信息

基于多模态大语言模型的体育视频解说生成方法及系统

大语言模型体育记忆单元文本音频

一种多模态情绪识别方法

多模态情绪数据音频特征视觉特征情绪识别方法

一种统一的多模态红外与可见光图像融合与转换方法

可见光图像转换方法对齐模块解码模块多模态特征融合

一种引水隧洞软岩支护结构多目标智能优化方法

引水隧洞智能优化方法支护结构隧洞开挖支护混凝土喷层厚度

基于大模型的酒驾预警方法、系统及存储介质

多模态特征语音特征面部特征预警方法预测特征

基于多视角的模态缺失鲁棒音视频自监督学习方法及装置

站点导航

APP 下载