一种大语言模型的强化学习训练方法及相关设备

AITNT
正文
推荐专利
一种大语言模型的强化学习训练方法及相关设备
申请号:CN202411853165
申请日期:2024-12-16
公开号:CN119990303A
公开日期:2025-05-13
类型:发明专利
摘要
本申请公开了一种大语言模型的强化学习训练方法、装置、服务器、计算机可读存储介质以及计算机程序产品。该方法获取奖励模型和评论者模型对行为者模型进行响应训练的评估,作为强化训练的训练反馈,在对行为者模型进行强化训练中,在对行为者模型进行参数更新的同时,也协调更新评论者模型,可以减少因模型不匹配导致的不稳定性和振荡,避免行为者模型过度拟合到某个特定的评估标准,确保行为者模型和评论者模型之间的协调,同时评论者模型能够更好地适应环境的变化,提供更准确的评估结果,从而帮助行为者模型更快地收敛到最优策略。
技术关键词
大语言模型 学习训练方法 学习训练装置 计算机程序产品 指标 模型预训练 数据获取单元 处理器 可读存储介质 参数 策略 服务器 存储器 场景 动态 强度
系统为您推荐了相关专利信息
1
一种无人艇艇群系统协同性等级评估方法
等级评估方法 协同系统架构 指标 仿真工具 协同通信
2
基于深度学习的智能故障预测系统
故障预测系统 长短期记忆网络 数据收集单元 系统日志 数据收集模块
3
车辆的摄像头标定方法、计算机可读存储介质及程序产品
车身 摄像头标定方法 车载屏幕 图像 视角
4
针对多模态数据的融合表示模型的训练方法及装置
文本 预训练模型 编码器 多模态 样本
5
一种用于冬小麦的综合光谱监测模型建立方法
监测模型建立方法 光谱遥感技术 多光谱传感器 叶面积指数 遥感数据反演
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号