摘要
本发明公开一种用于幽门螺杆菌专病模型的文本数据合成方法和系统及介质,采集与幽门螺杆菌相关的数据,对采集后的数据进行文本提取处理,对文本提取处理后的数据进行数据去噪和数据脱敏,得到原始数据集;利用第一大语言模型生成多个提示词,从所述多个提示词中选出最优提示词;根据所述最优提示词和所述原始数据集,利用第二大语言模型生成符合幽门螺杆菌诊疗语境的三元组指令数据集,将所述三元组指令数据集作为用于幽门螺杆菌专病模型的文本合成数据。本发明用于定向扩充幽门螺杆菌相关的医学文本数据,构建高质量的指令微调数据集,最终提升医学大模型的训练效果。
技术关键词
大语言模型
医学知识图谱
三元组
指令
模型训练模块
文本处理模型
光学字符识别
可读存储介质
数据处理模块
处理器
模式匹配
样本
数据格式
语义
存储器
计算机
系统为您推荐了相关专利信息
海工胶凝材料
评估模型训练方法
混合损失函数
材料孔隙率
信息熵
雷达点云数据
外参标定方法
坐标系
角反射器
计算机存储介质
飞行器
能力评估方法
在线轨迹规划
能力评估技术
点云模型
大语言模型
问答系统
数据库存储引擎
图谱
命名实体识别