摘要
本发明公开一种基于BERT模型与聚类优化算法的无监督数据标注方法、系统、设备和介质,属于人工智能技术领域,方法包括:获取文本数据集;利用预训练的关系提取器提取文本数据集的每个文本片段中的实体关系,使用向量来表示实体关系;将相似的向量聚类在一起,提取每个簇中实体对对应的单词,从而得到一个候选关系词集;基于候选关系词集,结合词频和关系向量距离,来选择每个簇的关系词作为该簇的标签。本发明能够实现无监督的数据标注方式,提升模型在数据标注的准确度。
技术关键词
BERT模型
数据标注方法
关系
实体
文本
算法
数据标注系统
语义
标签
层次聚类法
人工智能技术
训练集
数据采集模块
处理器
无监督
可读存储介质
存储器
计算机
参数
系统为您推荐了相关专利信息
知识图谱推理方法
多模态
生成知识图谱
数据
文本