摘要
本公开实施例公开了一种导诊模型的训练方法、装置、存储介质以及程序产品。其方法包括:从诊前对话数据中提取问题数据;基于诊中数据获取参考标准答案;将问题数据分别输入到协同模型和基础模型中以获取不同答复,结合问题数据和参考标准答案构建偏好数据;基于诊中数据生成虚拟QRA数据集微调基础模型得参考模型;引入安全约束规则,结合偏好数据和参考模型训练导诊模型得期望模型。该方法能够在导诊模型强化学习阶段引入安全约束规则,明确“安全红线”,保障导诊模型输出安全可控,相较于传统的仅用导诊模型与基础模型构建偏好数据的DPO训练法,该方法多引入了协同模型,使数据更多样,让导诊模型在训练中能够学习更广泛的人类偏好模式。
技术关键词
诊疗数据
计算机装置
sigmoid函数
数据存储
超参数
可读存储介质
列表
大语言模型
教师
指令
基础
计算机程序产品
处理器通信
样本
疾病
存储器
表达式
系统为您推荐了相关专利信息
模型训练方法
手术
动作视频识别方法
训练集
模型训练装置
数据存储区域
数据存储器
数据传输方法
中央处理器
条目
图像翻译方法
散射特征
注意力
输出特征
全局平均池化
异常检测方法
道路异常检测模型
重建误差
道路图像数据
样本