摘要
本发明涉及一种融合语义分析、规则匹配和深度学习的信息提取方法,将文本通过段落切分模块、词向量模型信息提取模块以及基于深度学习的信息处理模块进行信息提取,具体步骤如下:所述段落切分模块依据文本编辑中用到的符号的规则和特征,定义段落切分规则,使用正则表达式进行匹配,遍历文本中的每一行,完成段落切分;所述词向量模型信息提取模块采用滑动窗口的方式构建数据集,将输入的文本转换为词向量;将词向量输入所述基于深度学习的信息处理模块进行信息提取,获取文本信息。本发明的优点:通过融合语义分析、特定的规则和深度学习技术,对文本信息进行多层次的信息清洗、筛选、提取和处理,使最终提取的文本信息更准确、更流畅。
技术关键词
信息提取方法
融合语义
信息处理模块
文本
词向量模型
多义词
滑动窗口
长短期记忆网络
匹配模块
深度学习技术
语法结构
词语
自然语言
多层次
符号
关键词
定义
关系