摘要
本发明公开了一种基于多模态知识图谱推理增强的人体行为识别方法及设备,涉及图像处理技术领域,包括:获取待识别的视频数据;对待识别的视频数据均匀采样,得到多个关键帧;采用训练好的人体行为识别网络对多个关键帧进行处理,利用视觉信息和文本信息之间的互补性,得到待识别的视频数据的类别结果;其中,训练好的人体行为识别网络以预设类别的数据作为训练集,对初始的人体行为识别网络进行训练得到。本发明能够提高模型的语义理解能力和时空建模能力。
技术关键词
知识图谱推理
节点特征
识别方法
锚点
多模态
视觉
人体
语义
表达式
关键帧
图像编码器
网络
数据
多层感知机
代表性视频帧
文本编码器
系统为您推荐了相关专利信息
电子价签
位置识别方法
优化图像处理
深度卷积神经网络
多模态传感器
建筑设计方法
生成技术
图像
多模态融合机制
文本
颞下颌关节
诊断系统
影像
特征提取模块
扩散加权成像
蠕变型滑坡
智能识别方法
注意力机制
文本
语言编码器