摘要
本申请涉及自然语言处理技术领域,公开一种文本标注方法、装置、设备及存储介质。该方法包括:获取待标注文本数据;对待标注文本数据进行分割,得到多个文本片段数据;对文本片段数据进行分类并根据分类结果选取若干最接近相应的文本片段类别的文本片段数据,得到若干候选文本片段数据;对待标注文本数据和候选文本片段数据进行相似度分析,选取相似度最高的候选文本片段数据,得到目标文本片段数据;根据目标文本片段数据对待标注文本数据进行标注。本申请实施例可以在自动标注过程中保留文本内容的完整语义,提高标签的质量。
技术关键词
文本标注方法
文本处理模型
神经网络模型训练
聚类
可读存储介质
标注装置
数据嵌入
样本
电子设备
自然语言
处理器
模块
存储器
计算机
主题
语义
分段