决策模型训练方法以及装置、信息处理方法以及装置

正文

推荐专利

申请号：CN202411033607

申请日期：2024-07-30

公开号：CN119249141A

公开日期：2025-01-03

类型：发明专利

摘要

本说明书实施例提供决策模型训练方法以及装置、信息处理方法以及装置，其中所述决策模型训练方法包括：按照预设的决策数据构建策略，将关联目标语言模型的样本数据处理为样本序列数据；在所述样本序列数据中提取样本状态数据和样本动作数据输入至所述目标语言模型进行处理，获得预测奖励数据；利用所述样本序列数据中的样本奖励数据和所述预测奖励数据，将所述目标语言模型更新为初始决策模型；按照所述决策数据构建策略将服务任务对应的服务数据处理为服务序列数据，并利用所述服务序列数据将所述初始决策模型优化为所述服务任务对应的服务决策模型。

技术关键词

决策模型训练方法样本数据序列计算机可执行指令策略模型更新信息处理方法模型训练装置信息模块客户端信息处理装置处理器计算机程序产品输入模块可读存储介质存储器

系统为您推荐了相关专利信息

任务和单据的关联方法、设备及存储介质

单据多管道分片输入系统批量

无人驾驶车辆远程控制方法、装置、电子设备及存储介质

无人驾驶车辆远程控制模式远程控制方法路障座舱

自动驾驶传感器选型方法、装置、设备、介质及产品

传感器选型方法虚拟运行环境计算机程序产品样本

模型训练方法、角点检测方法和装置

模型训练方法角点检测方法连线对象可执行程序代码

一种评估结构化知识提示框架的方法、装置、设备及介质

大语言模型知识图谱数据框架样本三元组

决策模型训练方法以及装置、信息处理方法以及装置

站点导航

APP 下载