摘要
本发明公开了一种基于大语言模型的跨领域数据匹配方法,包括以下步骤:输入源数据和目标数据,且两者分别来自患者信息和药物数据;分别从源数据和目标数据中提取实体对,所述源数据中的实体对具有标签的,即被标记为匹配或者不匹配,目标数据中的实体对不具有标签;主动候选源数据生成;上下文演示选择;将每个实体对的域信息注入到预定义格式中,将提示发送给大语言模型进行处理,大语言模型根据接收到的提示返回特定实体对的结果。本申请探索了大语言模型执行跨域实体解析的上下文学习能力。本申请提高了大语言模型在跨域实体解析任务中的性能,能选择更有价值的演示并构建更高质量的提示。
技术关键词
大语言模型
数据匹配方法
实体
标签
语义向量
朴素贝叶斯分类器
主动学习方法
构建分类器
序列
度量
特征值
标记
令牌
格式
计算方法
超参数
编码器