摘要
本申请提供了一种图形用户界面的交互方法及相关装置,该方法包括:获取包括多个原则的指导原则集;根据指导原则集对原始智能体进行强化微调训练,得到用于执行图形用户界面操作的目标智能体;强化微调训练的过程包括:针对目标交互任务的目标交互轨迹的每一时间步,通过生成式奖励模型,根据指导原则集对原始智能体在时间步下输出的动作和思维链文本上下文进行评估,得到所述时间步下各原则对应的奖励分数;根据所述时间步下各原则对应的奖励分数确定总奖励,并根据总奖励对原始智能体的参数进行优化;基于目标智能体执行图形用户界面操作。本申请在智能体的训练过程中提供了更加精细且密集的奖励信号,有效提高了性能。
技术关键词
执行图形用户界面
交互方法
文本
轨迹
里程碑
大语言模型
文档对象模型
定义策略
微调单元
交互装置
标记
数据
模板
参数
快照
模版
指令
系统为您推荐了相关专利信息
直线运动状态
检测器
定位方法
地面标记器
全局优化算法
情感特征
样本
情感识别方法
情感识别装置
多模态
测量方法
钙钛矿材料
体系结构模型
分子
密度泛函理论
字典表
排序算法
数据库同步
汉字结构
语音识别引擎
智能驾驶车辆
轨迹
风险评估方法
车辆质心侧偏角
非线性