摘要
本发明公开了一种基于演示视频模仿学习的机械臂智能控制方法,首先获取包含任务目标的人类演示视频,得到关键点标记的视频;利用多模态大语言模型分层提取语义信息与空间几何信息,将任务分解为多个子任务阶段,并生成每个子任务阶段的子目标约束函数与路径约束函数;在机械臂仿真环境中布置与人类演示视频相似的任务场景,通过特征提取与聚类生成环境关键点;构建从视频关键点到环境关键点的映射函数;求解当前机械臂工作环境的子目标约束函数与路径约束函数的最优解,驱动机械臂执行动作直至任务完成。本发明通过细粒度关键点分析、多模态信息融合及跨场景映射,显著提升了机械臂在动作理解准确性、复杂场景适应性与任务泛化能力。
技术关键词
关键点特征
大语言模型
视频
智能控制方法
物体
驱动机械臂
场景
多模态信息融合
求解算法
仿真环境
人类
语义
模拟退火算法
标记
规划算法
阶段
聚类
系统为您推荐了相关专利信息
运动特征
语义特征提取
多模态特征融合
融合特征
编码特征