摘要
本发明提供大语言模型增强方法。提供的方法包括:使用混合数据集对基础大语言模型进行微调,混合数据集包括来自生物医药数据集的生物医药数据和来自通用数据集的通用数据,生物医药数据包括生物医药问题以及针对生物医药问题的完成注释和偏好注释;使经微调的大语言模型基于生物医药数据集进行离线偏好学习,来对经微调的大语言模型进行增强;使经增强的大语言模型利用奖励模型基于混合问题集迭代地进行在线偏好学习,来对经增强的大语言模型进行进一步的增强,其中由经增强的大语言模型针对每个问题生成回答并由奖励模型对其评分,在当前迭代轮次针奖励模型对回答的评分的分布影响下一迭代轮次针对每个问题生成的回答的数量。
技术关键词
大语言模型
数据
机器可读介质
指令
计算机程序产品
在线
离线
存储器
基准
处理器
基础
种子
专业
系统为您推荐了相关专利信息
动态功耗管理方法
芯片
频谱分布图
管理策略
时钟门控技术
管道监测方法
数字孪生
管道内流动介质
压力
流速
属性分类识别方法
计算方法
门控循环单元
Softmax函数
回波
强化学习方法
离线
超参数
神经网络模型
网络学习方法