摘要
本发明公开了一种泰勒增强混合架构的人体自我中心行为识别方法,属于计算机视觉领域;具体为:采集用户手物交互行为的连续RGB视频;然后,将其转换对应的泰勒帧序列;通过动态替换模态策略,形成泰勒增强后的混合数据,构建多样化的训练样本分布;接着,提取统一的初级图像特征,分别预测手物交互中的物体类别以及解码手部关键点的位置,并转换为动作输入特征,与原始的初级图像特征拼接,作为Transformer‑状态空间混合网络架构的输入,输出的行为特征映射到动作类别空间,通过softmax函数得到预测标签和每个类别的概率分布,选择最大概率值对应的即为预测的手物交互行为标签。本发明提高了模型的鲁棒性和泛化能力,行为识别准确率和高分辨率图像序列推理速度。
技术关键词
混合网络架构
识别方法
手部关键点
空间模块
图像
姿态特征
序列
标签
人体
物体
支路
状态空间模型
深度神经网络
多层感知器
计算机视觉
注意力机制
解码
状态更新
数据
系统为您推荐了相关专利信息
图像压缩系统
面向人机
图像解码器
网络
图像编码器
机械手定位方法
相机标定
手眼标定
相机外参数
图像
混凝土试件
图像识别装置
间距调节装置
弹性装置
信号转换单元