摘要
本发明公开了一种垂直领域文本的关键词提取方法、装置、设备及介质,包括:获取样本数据;基于样本数据对初始预训练语言模型进行训练,得到基础预训练语言模型;对样本数据进行序列标注,得到带有领域关键词序列标签信息的序列标注数据集,并采用序列标注数据集对基础预训练语言模型进行训练,得到领域关键词提取模型;获取待处理的领域文本,并将待处理的领域文本输入到领域关键词提取模型中进行候选关键词提取,得到领域候选关键词集合;对领域候选关键词集合中的关键词进行排序,得到排序结果;并基于排序结果从前往后依次选取预设数量的关键词,得到目标关键词集合。采用本发明可提高垂直领域关键词提取的精准性。
技术关键词
预训练语言模型
关键词提取方法
文本
关键词提取模型
关键词提取装置
样本
数据
序列
基础
可读存储介质
标签
处理器
模块
采集单元
计算机设备
存储器
词语