摘要
本申请实施例公开了一种策略模型训练方法、装置、介质及设备,获取输入文本对应的提示词并将提示词输入至初始策略模型,得到第一预设数量的初始回答;将提示词、每个初始回答输入至预设评估模型,得到每个初始回答的评估结果;根据评估结果,从初始回答中筛选出第二预设数量的待修改回答;将每个待修改回答输入至初始策略模型,基于修改要求输出第二预设数量的优化回答;以第一预设数量的初始回答以及第二预设数量的优化回答构建所述提示词的回答组群,基于所述回答组群中每个目标回答的组内奖励值对初始策略模型进行训练,得到训练后的策略模型。可缩短模型自我探索时的探索路径,减少计算机资源占用,提高处理能力,提升策略模型的推理准确性。
技术关键词
模型训练方法
策略
模板
模型训练装置
强化学习算法
可读存储介质
处理器
文本
教师
计算机设备
存储器
序列
指令
资源
参数
系统为您推荐了相关专利信息
数据处理方法
策略
计算机程序指令
实时业务
深度学习模型
人工智能模型
分布式控制系统
执行设备
脱硝系统
PID控制器
网络安全事件
网络安全防御
数据
网络防御
网络特征
智能空调
优化控制策略
智能家居设备
智能家居云平台
人体红外传感器
名单管理
实体
数据采集策略
数据采集模块
机器学习模型