一种基于多模态深度学习的第一人称视角注视点预测方法

AITNT
正文
推荐专利
一种基于多模态深度学习的第一人称视角注视点预测方法
申请号:CN202410928015
申请日期:2024-07-11
公开号:CN118821047A
公开日期:2024-10-22
类型:发明专利
摘要
本发明提供了一种基于多模态深度学习的第一人称视角注视点预测方法,包括:获取待预测的第一人称视角视频数据,对视频进行预处理以及提取音频操作,获得若干视频图像帧和对应计算获得的音频梅尔频谱图两种模态的训练样本;构建基于多模态深度学习的第一人称视角注视点预测模型,将所述训练样本输入所述注视点预测模型,输出第一人称视角注视点预测结果;其中,首先通过模型中的编码器提取所述训练样本的音频特征和视频特征,将所述提取的特征分别经过模型中的全局和局部融合模块进行特征融合,将所述融合特征经过模型中解码器上采样生成最终注视点预测图像。本发明方法充分利用多模态的信息互补特性,在全局和局部尺度上进行了多模态融合建模,结合多尺度编解码器设计,有效提高了第一人称视角注视点预测的准确性。
技术关键词
注视点预测方法 多模态深度学习 视频编码器 视角 融合特征 音频特征 动态卷积神经网络 音频编码器 解码器 重构模块 模态特征 注意力 上采样 滑动窗口 跨模态
系统为您推荐了相关专利信息
1
基于自适应小波分解和改进Transformer的时空风电功率预测方法
风电功率预测方法 嵌入特征 序列 频域特征 风电功率预测模型
2
编码器的训练方法、图像识别方法及存储介质
编码器 编码特征 图像识别方法 掩膜 融合特征
3
一种基于图交叉注意力网络的三维点云重建方法及装置
三维点云重建方法 三维点云数据 多面体 注意力 节点特征
4
一种基于多模态信息指导的点云修复方法
点云修复 细粒度特征 多模态信息 修复方法 物体
5
用于变压器的结构化静态模型重建方法、系统及介质
变压器 模型重建方法 稠密特征 图像 重建系统
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号