摘要
本说明书实施例提供决策模型训练方法以及装置、信息处理方法以及装置,其中所述决策模型训练方法包括:按照预设的决策数据构建策略,将关联目标语言模型的样本数据处理为样本序列数据;在所述样本序列数据中提取样本状态数据和样本动作数据输入至所述目标语言模型进行处理,获得预测奖励数据;利用所述样本序列数据中的样本奖励数据和所述预测奖励数据,将所述目标语言模型更新为初始决策模型;按照所述决策数据构建策略将服务任务对应的服务数据处理为服务序列数据,并利用所述服务序列数据将所述初始决策模型优化为所述服务任务对应的服务决策模型。
技术关键词
决策模型训练方法
样本
数据
序列
计算机可执行指令
策略
模型更新
信息处理方法
模型训练装置
信息模块
客户端
信息处理装置
处理器
计算机程序产品
输入模块
可读存储介质
存储器
系统为您推荐了相关专利信息
无人驾驶车辆
远程控制模式
远程控制方法
路障
座舱
传感器
选型方法
虚拟运行环境
计算机程序产品
样本
模型训练方法
角点检测方法
连线
对象
可执行程序代码