摘要
本发明涉及医疗模型训练领域,具体公开一种就医导诊模型训练方法、系统、终端及介质,使用先验知识对选择的大语言模型进行增量预训练获得基础大语言模型;获取公开的真实医患对话数据集;构建医患对话模板,基于医患对话模板使用第三方大语言模型生成构建医患对话数据集;将真实医患对话数据集和构建医患对话数据集合并为一个数据集,记为初始医患对话数据集;对初始医患对话数据集进行去重预处理获得医患对话训练数据集;使用医患对话训练数据集对基础大语言模型进行监督微调训练获得就医导诊模型。本发明基于公开数据集和自动构建数据集构成联合训练数据集,以对就医导诊模型,提高就医导诊模型的准确性。
技术关键词
大语言模型
模型训练方法
文本
模板
模糊匹配算法
模型训练系统
网络爬虫技术
基础
爬取数据
模型训练模块
可读存储介质
数据获取模块
训练集
程序
数据格式
终端
语义
数据存储