摘要
本发明涉及一种融合大模型的多模态行人指挥手势识别方法,属于自动驾驶领域。其包括:收集行人数据集,并进行数据集划分;采用预训练的行人检测模型从数据集中提取人体关键点;通过目标追踪网络对提取的人体关键点信息进行处理,得到动态的关键点轨迹信息;建立用于识别手势的多模态动作识别模型,其至少包括骨架编码器和文本编码器;多部分对比学习损失训练优化多模态手势识别模型,得到识别结果。将训练好的模型安装至自动驾驶汽车上,对行人手势进行区分,准确判断行人的意图。本发明方法采用多模态框架,识别精度高、识别速度快。
技术关键词
手势识别方法
文本编码器
人体关键点
多模态手势
行人检测模型
分支
关节
骨架特征
动作识别模型
标记
轨迹
行人手势识别
卷积模块
解码器
双编码器
Softmax函数
数据
系统为您推荐了相关专利信息
对齐方法
自然语言预处理
社交媒体环境
双向长短期记忆网络
解析器
多模态信息融合
视频生成方法
去噪模型
生成图像特征
语义
健康档案信息
宠物健康
融合特征
样本
图像特征提取
风险评估模型
车辆
行人检测模型
图像
卡尔曼滤波器
数据实时采集方法
步态轨迹
人体关键点
遮挡关系
场景