摘要
本发明涉及人工智能技术领域,可运用于医疗健康领域和金融交易领域,公开了基于多模态预训练的动作生成方法、装置、机器人及介质,应用于智能手术机器人的高频动作生成场景中,或应用于智能客户服务与财富管理场景中,其中方法包括:获取语言指令、视觉图像和机器人本体感知数据;通过预训练视觉语言模型将语言指令、视觉图像和机器人本体感知数据进行多模态特征对齐和跨模态特征融合,生成融合后联合特征向量;通过预训练的目标动作模型采用流匹配技术基于融合后联合特征生成目标连续控制指令;基于目标连续控制指令生成机器人的连续动作。本发明提高了机器人动作生成的效率和跨平台适应性。
技术关键词
动作生成方法
机器人本体
多模态特征
视觉
感知特征
语义特征
生成机器人
图像
多层感知机
数据
指令
智能客户服务
动作生成装置
语言编码器
手术机器人
可读存储介质
人工智能技术
系统为您推荐了相关专利信息
六轴工业机器人
机器人本体
视觉检测单元
中央控制单元
工作台
医疗数据采集模块
大数据人工智能
生物传感器阵列
信息采集单元
医疗监控技术
等级识别方法
大语言模型
视觉特征
多模态
文本编码器
上肢康复训练系统
康复机器人
患者
导纳控制算法
助力