一种基于多模态深度学习的第一人称视角注视点预测方法

正文

推荐专利

申请号：CN202410928015

申请日期：2024-07-11

公开号：CN118821047A

公开日期：2024-10-22

类型：发明专利

摘要

本发明提供了一种基于多模态深度学习的第一人称视角注视点预测方法，包括：获取待预测的第一人称视角视频数据，对视频进行预处理以及提取音频操作，获得若干视频图像帧和对应计算获得的音频梅尔频谱图两种模态的训练样本；构建基于多模态深度学习的第一人称视角注视点预测模型，将所述训练样本输入所述注视点预测模型，输出第一人称视角注视点预测结果；其中，首先通过模型中的编码器提取所述训练样本的音频特征和视频特征，将所述提取的特征分别经过模型中的全局和局部融合模块进行特征融合，将所述融合特征经过模型中解码器上采样生成最终注视点预测图像。本发明方法充分利用多模态的信息互补特性，在全局和局部尺度上进行了多模态融合建模，结合多尺度编解码器设计，有效提高了第一人称视角注视点预测的准确性。

技术关键词

注视点预测方法多模态深度学习视频编码器视角融合特征音频特征动态卷积神经网络音频编码器解码器重构模块模态特征注意力上采样滑动窗口跨模态

系统为您推荐了相关专利信息

基于自适应小波分解和改进Transformer的时空风电功率预测方法

风电功率预测方法嵌入特征序列频域特征风电功率预测模型

编码器的训练方法、图像识别方法及存储介质

编码器编码特征图像识别方法掩膜融合特征

一种基于图交叉注意力网络的三维点云重建方法及装置

三维点云重建方法三维点云数据多面体注意力节点特征

一种基于多模态信息指导的点云修复方法

点云修复细粒度特征多模态信息修复方法物体

用于变压器的结构化静态模型重建方法、系统及介质

变压器模型重建方法稠密特征图像重建系统

一种基于多模态深度学习的第一人称视角注视点预测方法

站点导航

APP 下载