摘要
本申请公开了医学语言模型构建方法、设备、存储介质及产品,涉及计算机语言模型领域。所述方法包括获取对通用预训练数据集中的数据进行领域分类和质量过滤,得到高质量医疗数据集;根据高质量医疗数据集和通用预训练数据集构建得到第一样本数据集,并利用第一样本数据集对第一语言模型进行训练,得到第一训练模型;根据高质量医疗数据集和开源医学SFT数据集构建第二样本数据集,并利用第二样本数据集对第一训练模型进行训练,得到第二训练模型;利用第三样本数据集对第二训练模型进行训练,得到第三训练模型;利用偏好样本数据集对第三训练模型进行训练,得到医学语言模型。本申请解决了传统方法忽略在CPT阶段数据构建的重要性问题。
技术关键词
语言模型构建方法
医学
数据
样本
标签
分类器
指令
计算机程序产品
因子
处理器
过滤方法
答案
可读存储介质
存储器
电子设备
阶段
参数
系统为您推荐了相关专利信息
频域检测方法
信号频谱包络
频域检测系统
极值
信号转换单元
地表水
反演方法
热传输
粒子群优化算法
数学模型
优化存储方法
射线
优化存储系统
数据获取模块
处理器
报告生成方法
故障特征模型
输配电
生成图文
模型训练模块