摘要
本发明公开了一种基于对比学习的医疗机构名称治理方法,包括如下步骤:S1、将待清洗的医药销售链路数据中的医疗机构名称利用编码器模型进行向量化;所述编码器模型为基于对比学习的编码器模型;S2、在医疗机构标准库中进行医疗机构名称的文本匹配,进行语义及字符的相似性的召回;S3、对步骤S2所召回的数据采用单塔BERT模型进行重新排序,输出得分最大的医疗机构标准名,并将未知的医疗机构名称投影到得分最大的医疗机构标准名对应的统一编码中。本发明大大提高了清洗数据的准确性,有效降低了人工介入的成本。
技术关键词
文本
编码器
样本
元素
语义
字符
格式化
数据映射关系
定义
预训练模型
参数
学习方法
基座
数据编码
传播算法
数据格式
阶段
系统为您推荐了相关专利信息
检测配电线路
线路异常检测
异常检测方法
样本
异常检测系统