摘要
本发明提供一种基于深度学习的姿态估计方法以及系统,应用于图像识别领域,其中,方法包括:获取目标图像、自然语言指令以及模板图像;通过预设的提示生成器,分别对自然语言指令与模板图像进行编码,得到文本特征与视觉特征;通过提示生成器的大语言模型,对文本特征与视觉特征进行多模态特征融合,得到多模态特征信息;通过提示生成器的视觉嵌入投影层,基于多模态特征信息,生成姿态提示向量;将目标图像与姿态提示向量输入至预设的姿态估计器,得到姿态估计器输出的关键点热力图;对关键点热力图进行关键点位置解析,得到目标图像的姿态估计结果。通过本发明能够灵活地适应不同的类别的姿态估计需求。
技术关键词
自然语言
姿态估计方法
图像特征编码
样本
图像类别
关键点
热力图
指令
模板
多模态特征融合
视觉特征
非暂态计算机可读存储介质
姿态估计系统
数据
文本
处理器
系统为您推荐了相关专利信息
机器人控制方法
构建语音识别模型
声道
多特征信息融合
特征值
医疗辅助诊断方法
卷积神经网络模型
医学影像数据
电子病历
正则化方法
故障诊断模型
高压断路器
极限学习机
萤火虫算法
断路器分合闸线圈