一种基于依存图解析的一体化中文信息抽取方法及装置

正文

推荐专利

申请号：CN202411009247

申请日期：2024-07-26

公开号：CN118551021B

公开日期：2024-11-08

类型：发明专利

摘要

本发明涉及自然语言处理技术领域，特别是指一种基于依存图解析的一体化中文信息抽取方法及装置。方法包括：构建待处理文本的依存图；构建模型框架并训练模型框架，获得中文信息抽取模型；通过中文信息抽取模型获取待处理文本中文字之间的关系，获得待处理文本中字与字之间预测边的概率；提取字与字之间预测边的概率超过0.5的数据，输入至解码器中进行解码，并从相应的预测标签的分布中取到该字与字之间的标签，获得待处理文本的依存图，完成基于依存图解析的一体化中文信息抽取。本发明脱离特定的任务独立的运行并且有很好的性能，同时由于使用字粒度的方式进行建图来表示关系，能够对不同的数据集都采用一致的处理方式，得到统一的模型输入。

技术关键词

文本编码器计算机可读取存储介质分类器关系标签计算机可读指令模块双向长短期记忆网络抽取设备模型框架构建抽取装置预训练语言模型解码器矩阵变量节点词语

一种基于依存图解析的一体化中文信息抽取方法及装置

站点导航

APP 下载