摘要
本公开提供了一种医疗大模型的预训练数据的生成方法、装置及电子设备,获取初始医疗数据,对初始医疗数据进行格式转换,得到结构化医疗数据;识别结构化医疗数据中的噪声文本,对噪声文本进行清除得到去噪医疗数据;响应于去噪医疗数据中存在重复文本,确定重复文本的重复类型,对重复文本进行修正处理,得到初始目标医疗数据;基于预设医疗文本对初始目标医疗数据进行过滤处理,得到目标医疗数据;从目标医疗数据中随机抽取预设数量的目标医疗数据作为待检测医疗数据,对待检测医疗数据进行质量检测,确定检测结果为合格,对目标医疗数据进行格式转换,得到训练医疗数据,将训练医疗数据作为医疗大模型的预训练数据,提高了预训练数据的质量。
技术关键词
文本
结构化医疗数据
语义相关度
格式
生成方法
一致性检测
电子设备
噪声识别
高风险
覆盖率
数据获取模块
生成装置
处理器
关键词
存储器
系统为您推荐了相关专利信息
文本编码器
遥感图像数据
场景分类方法
预测类别
无监督
语音识别管理系统
语句
分析单元
关键字
夹角度数