摘要
本发明涉及人工智能技术领域,涉及一种基于多模态大模型在人机协同环境中的意图理解方法。其包括以下具体步骤:视频分析与任务规划;采用关键帧提取和图像分割方法对视频进行预处理;构建任务的有向无环图,记忆可行的任务路径;实时意图判断;对多模态数据进行处理,将不同模态的数据截取图片按照固定方式拼接在一起;使用任务有向无环图筛选大模型一次判断时需要面对的子任务,并且给大模型梳理一些更可能发生的子任务序列;机械臂指令生成与反馈;根据任务有向无环图发出相应的指令、执行相应步骤,生成反馈数据。本发明通过结合视觉、听觉等多模态信息,实时感知环境和任务执行过程,成功实现了对复杂环境中人物行为的精准识别与任务推断。
技术关键词
意图理解方法
人机协同
结点
有向无环图
多模态
图像分割方法
视频分析
关键帧
图片
人工智能技术
机械臂
处理器
物体
数据
指令
标记
序列
系统为您推荐了相关专利信息
胆道系统
微型注射泵
多模态
中央控制器
激光产生器
适应性算法
无人配送技术
资源分配
资源集中管理
交通状况变化趋势
锅炉运行状态
锅炉运行参数
专家决策系统
智能集控
多模态
乳腺癌新辅助化疗疗效
神经网络模型
患者
时序
化疗疗效预测
图像生成模型
动态门控
信息编码
语义
图像生成方法