摘要
本发明公开了一种融合深度学习与依存句法的工艺标准实体关系抽取方法,包括:收集流程生产工艺标准非结构化文本,并对所需提取的实体进行标注,以建立实体关系数据集;搭建MacBERT‑BiGRU‑IDCNN‑CRF实体抽取模型进行训练;将待抽取的流程生产工艺标准非结构化文本通过训练好的深度学习模型进行实体抽取;将抽取出的实体通过词典导入自然语言处理工具中;对待抽取的流程生产工艺标准非结构化文本以句子为单位对句子进行分词;依据分词后的结果对各组成部分进行依存分析,获得句子的依存关系;依据句子的依存关系,对句子中各组成部分进行上下位划分,获得上下位关系;依据上下位关系构建的三元组搭建规则将句子转化为三元组结构导入图数据库中。本发明能有效解决自然语言处理工具对文本的实体边界划分问题;并且通过提出的三元组构建规则,能更好地适应中文工艺标准领域的文本特点。
技术关键词
实体关系抽取方法
非结构化文本
融合深度学习
依存句法
实体关系数据
三元组
深度学习模型
实体关系抽取系统
自然语言
字符
分词
CRF模型
标注策略
词典
超参数
标注工具
搭建模块
系统为您推荐了相关专利信息
文本信息抽取方法
命名实体识别模型
实体关系数据
关系抽取模型
跨度
应急系统
深度置信网络
电力应急管理技术
应急预案技术
场景