摘要
本申请公开了一种面向专利文本的标记对抽取方法及系统,方法包括首先获取原始专利文本,对原始专利文本中的附图说明和具体实施方式进行解析;然后分别从解析后的附图说明和具体实施方式中抽取标记对得到附图说明标记对字典和具体实施方式标记对字典;将附图说明标记对字典、具体实施方式标记对字典以及推荐实体进行合并得到标记对抽取结果。本申请在进行标记对抽取时不用分词,所以避免了分词误差对抽取效果的影响,同时采用实体判别及去噪模型,进一步优化了标记实体抽取效果。
技术关键词
标记
列表
推荐实体
文本
异常点
更新字典
离群点
模型训练算法
抽取系统
数据
计算机程序产品
处理器
分词
噪声
样本
计算机设备
元素
预热器
系统为您推荐了相关专利信息
视觉特征
图像识别方法
损失函数优化
文本
计算机程序产品