摘要
本发明公开了一种数据稀缺条件下多领域实体识别方法、装置及可读介质,包括:确定目标命名实体识别任务所需的目标实体类别集合;基于每个原始数据集和目标实体类别集合标注出每个原始数据集的文本数据集合的文本中其余未标注的实体的伪标签;利用经预训练的第一大语言模型和目标实体类别集合对每个原始数据集的文本数据集合的文本中其余未标注的实体的伪标签进行打分和过滤,保留高置信度的伪标签及其相应的文本并与对应的原始数据集结合生成最终数据集;利用最终数据集对经预训练的第二大语言模型进行微调,得到目标命名实体识别任务对应的实体识别模型并识别出待识别的文本中的实体及其对应的实体类别。本发明提高实体识别的准确性和适用性。
技术关键词
文本
实体识别方法
实体识别模型
大语言模型
命名实体识别
数据
标签
处理器
计算机程序产品
过滤模块
识别模块
存储装置
可读存储介质
电子设备
语义
系统为您推荐了相关专利信息
工作流引擎
工作流实例
意图识别
自动语音识别
文本
敏感信息识别方法
参数
图像特征提取模型
网络平台
文本
证件制作设备
设备管理服务器
证件制作系统
数据传输协议
模板