大语言模型的训练方法、装置、电子设备以及存储介质

AITNT
正文
推荐专利
大语言模型的训练方法、装置、电子设备以及存储介质
申请号:CN202510978405
申请日期:2025-07-16
公开号:CN120851106A
公开日期:2025-10-28
类型:发明专利
摘要
本申请提供了一种大语言模型的训练方法、装置、电子设备以及存储介质,涉及人工智能技术领域。该方法包括:将样本提示输入大语言模型,得到大语言模型输出的响应文本;将响应文本输入训练完成的多头部奖励模型,得到训练完成的多头部奖励模型输出的多个预测奖励均值和多个预测奖励方差,多头部奖励模型包括多个奖励模型头部,每个奖励模型头部用于输出一个预测奖励均值和一个预测奖励方差;基于多个预测奖励方差,从多个预测奖励均值中选取目标奖励均值,目标奖励均值的置信度高于其他预测奖励均值;将目标奖励均值作为奖励信号以训练大语言模型。该方法能够提升大语言模型训练的可靠性和稳定性。
技术关键词
大语言模型 文本 样本 数据 电子设备 特征提取模块 人工智能技术 计算机 标签 基础 训练装置 处理器 指令 信号 可读存储介质 线性 曲线 程序 存储器
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号