摘要
本申请提供了一种视频语言模型的训练方法以及人体交互行为识别方法,涉及计算机视觉识别技术领域,包括:获取视频样本以及视频样本中针对人体交互行为的动作描述文本数据;确定视频样本对应的第一视频特征和第一物体位置特征;基于第一视频特征和第一物体位置特征确定L层多头自注意力块中每层多头自注意力块输出的视觉联合特征;基于动作描述文本数据和视觉联合特征,确定L层多模态细化学习模块中最后一层多模态细化学习模块输出的视觉表示、文本表示以及多模态表示,基于视觉表示、文本表示以及多模态表示,更新视频语言模型的模型参数,直至得到训练完成的目标视频语言模型。本申请可提高人体交互行为识别的精准度。
技术关键词
注意力
多模态
文本
视频特征提取
特征提取网络
视觉
物体特征提取
人体
空间特征提取
样本
识别方法
跨模态
数据
特征提取模块
训练装置
图谱
系统为您推荐了相关专利信息
多模态数据融合
运维工单
网络拓扑数据
非结构化日志
训练语言模型
通道
卷积模块
组合模块
检测模型训练方法
特征提取模块
评估系统
数据采集模块
多模态
识别模块
视频监控单元
语音识别管理系统
语句
分析单元
关键字
夹角度数