摘要
本发明公开了一种用于机器人作业的大模型特征融合哈希自注意力方法,获取目标操作环境下多种复杂操作任务的示教数据;采集操作场景中的多模态信息;构建基于大模型的视觉‑文字精炼及对齐模块,将多模态信息中的声音信号和视觉信号输入,得到最终提取的视觉特征和最终预测的文字特征;采用特征提取器将最终得到的视觉特征和文字特征转换为特征相同的维度,利用设计的哈希交互机器人技能学习模块进行特征交互并进行特征提取,预测相应的机器人的动作;基于示教数据和预设的损失函数对哈希交互机器人技能学习模块进行训练,用于根据实时的视觉和文字输入预测机器人的动作。提高机器人在复杂处理操作环境下的自主学习、技能泛化和精准控制能力。
技术关键词
文字特征
视觉特征
交互机器人
注意力方法
预测机器人
机器人作业
长短期记忆网络
对齐模块
示教数据
场景特征
模态特征
注意力机制
融合视觉
关节
特征提取器
系统为您推荐了相关专利信息
安防监控大数据处理方法
视频监控数据
异常事件
联动应急系统
大数据处理系统
物料搬运方法
机器人
图像纹理特征
深度感知装置
物料搬运作业
局部视觉特征
全局视觉特征
多模态
动作特征
轨迹特征