策略模型训练方法、装置、介质及设备

AITNT
正文
推荐专利
策略模型训练方法、装置、介质及设备
申请号:CN202511502437
申请日期:2025-10-21
公开号:CN120996205A
公开日期:2025-11-21
类型:发明专利
摘要
本申请实施例公开了一种策略模型训练方法、装置、介质及设备,获取输入文本对应的提示词并将提示词输入至初始策略模型,得到第一预设数量的初始回答;将提示词、每个初始回答输入至预设评估模型,得到每个初始回答的评估结果;根据评估结果,从初始回答中筛选出第二预设数量的待修改回答;将每个待修改回答输入至初始策略模型,基于修改要求输出第二预设数量的优化回答;以第一预设数量的初始回答以及第二预设数量的优化回答构建所述提示词的回答组群,基于所述回答组群中每个目标回答的组内奖励值对初始策略模型进行训练,得到训练后的策略模型。可缩短模型自我探索时的探索路径,减少计算机资源占用,提高处理能力,提升策略模型的推理准确性。
技术关键词
模型训练方法 策略 模板 模型训练装置 强化学习算法 可读存储介质 处理器 文本 教师 计算机设备 存储器 序列 指令 资源 参数
系统为您推荐了相关专利信息
1
基于模型的数据处理方法和装置、设备、介质及产品
数据处理方法 策略 计算机程序指令 实时业务 深度学习模型
2
智慧脱硝系统及处理方法
人工智能模型 分布式控制系统 执行设备 脱硝系统 PID控制器
3
一种基于人工智能的网络安全预测方法及系统
网络安全事件 网络安全防御 数据 网络防御 网络特征
4
一种智能空调的控制方法、系统和装置
智能空调 优化控制策略 智能家居设备 智能家居云平台 人体红外传感器
5
一种合规名单系统、合规名单的处理方法及设备
名单管理 实体 数据采集策略 数据采集模块 机器学习模型
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号