大语言模型训练方法、装置与电子设备

AITNT
正文
推荐专利
大语言模型训练方法、装置与电子设备
申请号:CN202510705088
申请日期:2025-05-28
公开号:CN120632448A
公开日期:2025-09-12
类型:发明专利
摘要
本公开提供一种大语言模型训练方法、装置与电子设备。方法包括:通过大语言模型的系统提示词对大语言模型设置控制信息;对大语言模型输入训练数据,获取大语言模型的输出数据,从输出数据中提取N个数字;根据N个数字中携带预设数字标签和数字来源的数字的数量M,得到第一奖励值;在携带预设数字标签和数字来源的M个数字中,根据数字来源确定数字对应的标准值,根据标准值与数字的比对结果得到第二奖励值;采用近端策略优化方式或者组相对策略优化方式对大语言模型进行强化学习训练,其中,根据第一奖励值和第二奖励值形成近端策略优化方式或者组相对策略优化方式中的训练奖励值。本公开实施例可以提高大语言模型生成的数字的准确性。
技术关键词
大语言模型 语言模型训练方法 策略 标签 电子设备 格式 数据获取模块 计算机程序产品 处理器 训练装置 存储器 可读存储介质 指令
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号