多模态信息与局部-全局特征融合的视频动作识别方法

正文

推荐专利

申请号：CN202510209339

申请日期：2025-02-25

公开号：CN120148109A

公开日期：2025-06-13

类型：发明专利

摘要

本发明公开了一种多模态信息与局部‑全局特征融合的视频动作识别方法。本发明采用文本编码器将标签文本转换为文本特征，并利用跨模态自适应约束融合模块将文本特征与视频信息进行有效地融合，提高对视频特征的表示能力。同时，跨模态自适应约束融合模块中还引入了可学习的Token因子，引导模型更有效地学习视频中特定的信息，避免模型过于依赖原始数据的偏差和噪声特性。本发明提出的局部‑全局特征融合模块通过多尺度自注意力机制捕捉局部‑全局之间的相关性，从而有效地融合局部和全局特征。因此，本发明能够有效地融合多模态信息，解决了局部‑全局特征融合不够充分的问题，得到精确描述动作的特征张量，从而实现对视频动作的精确识别。

技术关键词

视频动作识别方法全局特征融合通道注意力机制融合特征网络积层跨模态文本编码器融合多模态信息多尺度模块标签文本视频帧计算机程序产品处理器

系统为您推荐了相关专利信息

一种基于跨尺度耦合机制的单粒子效应敏感性评估方法

三维半导体器件耦合机制粒子识别神经网络计算机辅助设计工具

一种基于神经网络模型的ETL系统维护方法和装置

ETL系统故障类别神经网络模型故障原因分析时间段

一种预测致密气管道CO2内腐蚀速率的新型混合算法的方法

混合算法量子粒子群优化算法 DE算法节点数气管

密集语言模型稀疏升级方法及稀疏语言模型文本处理方法

文本处理方法上下文特征生成特征向量升级方法注意力

一种内置有电极的袋笼喷涂仓设备及使用方法

电场喷枪条状电极涂料粒子

多模态信息与局部-全局特征融合的视频动作识别方法

站点导航

APP 下载