摘要
本申请公开了一种模型训练方法、系统、设备及介质,通过获取负向指令,以及获取到的负向指令对应的正向回复;将所述负向指令输入目标大模型,得到目标大模型产生的负向回复,存在对应关系的正向回复和负向回复结合得到正负样本对,并储存至目标数据集,基于训练完成的判别模型对所述目标数据集中负向指令的正向回复进行评分,确定评分低于第一预设阈值的负向指令;对筛选得到的负向指令进行拓展,基于拓展结果对目标大模型进行调整,并执行所述获取负向指令及后续步骤。运用了对比的思想来优化损失函数,引入了判别模型来辅助模型的迭代过程,减少了人工标注和评估的工作量,降低了人力成本。
技术关键词
指令
模型训练方法
多层网络结构
样本
模型训练系统
拓展单元
可读存储介质
终端设备
数据
线性
处理器
关系
存储器
计算机
电子设备
工作量
参数
人力
系统为您推荐了相关专利信息
特征提取模型
早期阿尔茨海默症
样本
特征提取方法
Sigmoid函数
执行设备
方位误差
定位补偿方法
关节
穿刺机器人
模式切换模块
惯性动作捕捉
多模态
力反馈装置
生成执行指令
智能监测系统
大数据
互联网
显著性检验方法
智能监测方法