摘要
本申请公开了一种大语言模型的强化学习训练方法、装置、服务器、计算机可读存储介质以及计算机程序产品。该方法获取奖励模型和评论者模型对行为者模型进行响应训练的评估,作为强化训练的训练反馈,在对行为者模型进行强化训练中,在对行为者模型进行参数更新的同时,也协调更新评论者模型,可以减少因模型不匹配导致的不稳定性和振荡,避免行为者模型过度拟合到某个特定的评估标准,确保行为者模型和评论者模型之间的协调,同时评论者模型能够更好地适应环境的变化,提供更准确的评估结果,从而帮助行为者模型更快地收敛到最优策略。
技术关键词
大语言模型
学习训练方法
学习训练装置
计算机程序产品
指标
模型预训练
数据获取单元
处理器
可读存储介质
参数
策略
服务器
存储器
场景
动态
强度
系统为您推荐了相关专利信息
等级评估方法
协同系统架构
指标
仿真工具
协同通信
故障预测系统
长短期记忆网络
数据收集单元
系统日志
数据收集模块
监测模型建立方法
光谱遥感技术
多光谱传感器
叶面积指数
遥感数据反演