一种大语言模型的强化学习训练方法及相关设备

正文

推荐专利

申请号：CN202411853165

申请日期：2024-12-16

公开号：CN119990303A

公开日期：2025-05-13

类型：发明专利

摘要

本申请公开了一种大语言模型的强化学习训练方法、装置、服务器、计算机可读存储介质以及计算机程序产品。该方法获取奖励模型和评论者模型对行为者模型进行响应训练的评估，作为强化训练的训练反馈，在对行为者模型进行强化训练中，在对行为者模型进行参数更新的同时，也协调更新评论者模型，可以减少因模型不匹配导致的不稳定性和振荡，避免行为者模型过度拟合到某个特定的评估标准，确保行为者模型和评论者模型之间的协调，同时评论者模型能够更好地适应环境的变化，提供更准确的评估结果，从而帮助行为者模型更快地收敛到最优策略。

技术关键词

大语言模型学习训练方法学习训练装置计算机程序产品指标模型预训练数据获取单元处理器可读存储介质参数策略服务器存储器场景动态强度

系统为您推荐了相关专利信息

一种无人艇艇群系统协同性等级评估方法

等级评估方法协同系统架构指标仿真工具协同通信

基于深度学习的智能故障预测系统

故障预测系统长短期记忆网络数据收集单元系统日志数据收集模块

车辆的摄像头标定方法、计算机可读存储介质及程序产品

车身摄像头标定方法车载屏幕图像视角

针对多模态数据的融合表示模型的训练方法及装置

文本预训练模型编码器多模态样本

一种用于冬小麦的综合光谱监测模型建立方法

监测模型建立方法光谱遥感技术多光谱传感器叶面积指数遥感数据反演

一种大语言模型的强化学习训练方法及相关设备

站点导航

APP 下载