摘要
本发明公开了一种基于多模态特征融合与微调的微姿态识别方法,涉及计算机视觉与动作识别领域。其特征在于,提出了一种通用的跨模态知识融合框架,利用视频、骨架和文本三种模态信息,通过微调网络分别提取多模态特征。同时,引入视频‑骨架与文本‑骨架融合模块,以增强模态间的交互性。采用对比学习对齐特征分布,并结合冻结‑微调策略优化模型训练,降低计算复杂度,提高识别效率。本发明提供的方法能够弥补单模态信息缺失问题,增强对微小姿态变化的感知能力,提高识别精度与鲁棒性,适用于行为监测、人机交互、安全防护等多个应用场景。
技术关键词
姿态识别方法
多模态特征融合
融合特征
骨架特征
视频编码器
姿态识别模型
文本编码器
视频适配器
卷积神经网络提取特征
Softmax函数
人体骨架信息
策略优化模型
姿态估计算法
关节点
令牌
系统为您推荐了相关专利信息
代码注释生成方法
序列
位置编码信息
抽象语法树
多视角
图像分割模型
图像分割方法
融合特征
多尺度
上采样
高斯混合模型
融合特征
重构误差
注意力机制
编码器