摘要
本申请涉及人工智能技术领域,提供了一种生成任务执行结果的方法、装置、设备及介质。该方法通过基于任务描述确定奖励评价智能体集合,为集合中每个奖励评价智能体确定权重;使用预训练策略模型基于任务描述得到至少一个采样结果,利用各奖励评价智能体分别对每一个采样结果进行评价,并基于各奖励评价智能体的权重及评价结果确定策略模型奖励值,基于该奖励值训练策略模型,最后使用训练好的策略模型确定任务执行结果,实现了为非确定性任务自动、准确匹配多个合适的奖励评价智能体,并使用该多个奖励评价智能体联合训练策略模型以提高策略模型的评价准确度,进而得到更符合任务描述的任务执行结果,提升了用户体验。
技术关键词
策略
场景
可读存储介质
人工智能技术
处理器
算法
采样模块
存储器
计算机
对象
电子设备
系统为您推荐了相关专利信息
深度学习模型
智能回复方法
意图识别
识别用户意图
意图类别
水力平衡调节方法
区域供热系统
模糊控制规则
拉格朗日插值法
水力平衡调节装置
自动化评估方法
大语言模型
摘要
自动化评估系统
生成代码
智能清扫系统
异物检测方法
实时图像
清扫机构
图像采集单元