摘要
本发明公开了基于语义识别的文本数据结构化处理方法及系统,涉及自然语言处理技术领域,方法包括:引入预定识别抽取策略处理标准化原始文本数据,获取文本关键信息并分析得到第一关系三元组,组建三元组集合后经图嵌入分析得到目标实体矩阵,聚类处理后结合领域词典库调整初始语义特征从而得到目标语义特征,最终将目标语义特征的结构化结果作为原始文本数据的结构化结果。本发明解决了传统文本数据处理方法因未有效利用语义识别技术,难以精准捕捉文本深层语义关联,导致关键信息提取不完整、结构化处理结果不精确的技术问题,达到了对文本数据的语义级结构化处理,提升关键信息提取完整性与结构化结果准确性的技术效果。
技术关键词
文本数据结构
语义特征
文本关键信息
三元组
实体
矩阵
文本数据处理方法
聚类
词典
分类器
语义识别技术
关系
条件随机场
融合策略
模块
自然语言