摘要
本申请公开了一种半监督设备属性提取方法及系统,涉及设备属性提取领域,该方法包括:从设备文本中识别关键实体信息;生成属性提取匹配规则;提取部分设备属性;将部分设备属性所对应的原始文本和匹配模板文本作为文本对,并形成种子标注数据集;构建BERT‑Pair‑Networks模型并确定文本对是否匹配;对BERT‑Pair‑Networks模型进行训练;并生成初步预测结果;计算初步预测结果的置信度;选取置信度大于预设阈值的初步预测结果作为伪标签样本;将伪标签样本融入种子标注数据集形成新的训练数据;重新训练,直到收敛至预设范围;基于训练好的BERT‑Pair‑Networks模型提取设备属性。本申请可在低标注成本下实现高精度、高鲁棒性的设备属性抽取。
技术关键词
属性提取方法
文本
种子
数据
标签
模板
样本
命名实体识别
识别模块
语义
鲁棒性
参数
表达式
系统为您推荐了相关专利信息
脱敏数据
神经网络模型
协同建模方法
编码向量
参数
产品外壳
贴图
三维点云模型
数据处理方法
三维重建算法
综合能源优化方法
神经网络模型构建
情景
热电联产设备
燃料消耗量
实体抽取方法
CRF模型
BERT模型
标签
军事