基于多模式信息融合的交互意图理解与快速学习系统

正文

推荐专利

申请号：CN202510095336

申请日期：2025-01-21

公开号：CN119940369A

公开日期：2025-05-06

类型：发明专利

摘要

本发明公开了基于多模式信息融合的交互意图理解与快速学习系统，针对机器人取放物品的操作指令语义理解，在任务语义理解模块构建基于大语言模型的关键信息提取架构，包括多个关键位置与动作文本信息提取，并将提取的信息与视觉、触屏进行多模式交互融合，实现指令意图的正确理解。所述基于大语言模型的关键信息提取架构为基于BERT大语言模型，通过BERT大语言模型训练语言处理模型；所述语言处理模型包括长序列多任务指令，以及语气、场景、正序与倒叙的请求指令的人类指令数据集，实现输入长序列多任务指令语句，输出关键动作序列；该系统能够通过语音、触屏、视觉多模式人机交互技术实现高效、准确地人意图理解，使机器人能够快速学习新物品。

技术关键词

学习系统多模式大语言模型意图视觉物品位置信息文本信息提取机器人取放触屏识别模块 BERT模型场景多任务理解系统语义指令视频流新物品序列

系统为您推荐了相关专利信息

智能化桥梁支座检测与维护管理系统及方法

桥梁支座检测裂纹传感器视觉传感器震动传感器管理方法

具有机器视觉的机械臂清理刀片压坯毛刺的自动化设备

清理刀片自动化设备机械臂防护壳电机托盘

一种金带的焊接方法

柔性PCB板焊接方法焊接工具光学视觉系统芯片

一种跨模态视触觉数据仿真生成模型及模型训练装置

图像特征参数跨模态数据视觉机器人触觉传感器

视觉关注点检测方法和系统

深度摄像机关注点坐标系屏幕内容图像实例分割

基于多模式信息融合的交互意图理解与快速学习系统

站点导航

APP 下载