摘要
本申请涉及人机交互技术领域,尤其涉及一种基于图形界面的多模态用户任务智能决策与执行方法,获取用户任务输入并采集当前设备图形界面及历史规划记录,构建多模态输入集合;基于多模态输入集合调用规划Agent进行用户任务理解与全局规划,输出思考内容、全局规划以及下一步计划,调用指令Agent接收来自规划Agent的下一步计划,将操作指令翻译成控制指令并输出;执行指令Agent输出的控制指令,并反馈执行结果;根据任务未完成状态,返回规划Agent进行新的全局规划和下一步计划推理。重复进行任务理解、全局规划以及下一步计划的执行,直到全局规划完成。本申请能提升任务在实际图形界面上的执行准确性、连续性与鲁棒性。
技术关键词
规划
计划
多模态
指令
决策
建立映射关系
人机交互技术
界面
模块
控制接口
驱动设备
程序
自然语言
处理器
设备端
操作系统
阶段
可读存储介质
存储器
鲁棒性
系统为您推荐了相关专利信息
节能用电系统
建筑施工场地
分布式电源出力
施工设备
负荷
动作识别方法
空间注意力网络
图片
动作识别模型
注意力机制
磁感应强度
样本
参数
三维仿真模型
磁铁设计技术