摘要
本发明公开了一种多模态信息与局部‑全局特征融合的视频动作识别方法。本发明采用文本编码器将标签文本转换为文本特征,并利用跨模态自适应约束融合模块将文本特征与视频信息进行有效地融合,提高对视频特征的表示能力。同时,跨模态自适应约束融合模块中还引入了可学习的Token因子,引导模型更有效地学习视频中特定的信息,避免模型过于依赖原始数据的偏差和噪声特性。本发明提出的局部‑全局特征融合模块通过多尺度自注意力机制捕捉局部‑全局之间的相关性,从而有效地融合局部和全局特征。因此,本发明能够有效地融合多模态信息,解决了局部‑全局特征融合不够充分的问题,得到精确描述动作的特征张量,从而实现对视频动作的精确识别。
技术关键词
视频动作识别方法
全局特征融合
通道注意力机制
融合特征
网络
积层
跨模态
文本编码器
融合多模态信息
多尺度
模块
标签文本
视频帧
计算机程序产品
处理器
系统为您推荐了相关专利信息
三维半导体器件
耦合机制
粒子
识别神经网络
计算机辅助设计工具
ETL系统
故障类别
神经网络模型
故障原因分析
时间段
混合算法
量子粒子群优化算法
DE算法
节点数
气管
文本处理方法
上下文特征
生成特征向量
升级方法
注意力