摘要
本发明公开了基于多模式信息融合的交互意图理解与快速学习系统,针对机器人取放物品的操作指令语义理解,在任务语义理解模块构建基于大语言模型的关键信息提取架构,包括多个关键位置与动作文本信息提取,并将提取的信息与视觉、触屏进行多模式交互融合,实现指令意图的正确理解。所述基于大语言模型的关键信息提取架构为基于BERT大语言模型,通过BERT大语言模型训练语言处理模型;所述语言处理模型包括长序列多任务指令,以及语气、场景、正序与倒叙的请求指令的人类指令数据集,实现输入长序列多任务指令语句,输出关键动作序列;该系统能够通过语音、触屏、视觉多模式人机交互技术实现高效、准确地人意图理解,使机器人能够快速学习新物品。
技术关键词
学习系统
多模式
大语言模型
意图
视觉
物品位置信息
文本信息提取
机器人取放
触屏
识别模块
BERT模型
场景
多任务
理解系统
语义
指令
视频流
新物品
序列
系统为您推荐了相关专利信息
桥梁支座检测
裂纹传感器
视觉传感器
震动传感器
管理方法
柔性PCB板
焊接方法
焊接工具
光学视觉系统
芯片
图像特征参数
跨模态
数据
视觉
机器人触觉传感器
深度摄像机
关注点
坐标系
屏幕内容图像
实例分割