摘要
本发明涉及一种基于语义相似度对文本提取数据相似度匹配方法,属于自然语言处理领域。本发明获取并处理实体数据作为实体数据的标准词库,初始语义相似度模型训练,选取文档中的候选文本,获得文档主题及其分布,计算文档主题和各个事件领域的主题相似度来确定文档的类别,利用标准的事件领域划分方法,创建事件抽取模板,根据文档主题类别抽取文档数据至对应的事件抽取模板,将非结构化数据转化为结构化数据,从结构化数据中,识别实体数据作为待匹配文本,利用语义相似度模型确定待匹配文本和目标文本之间的相似度。本发明实现了对非结构化文档中的名词类文本与标准实体文本的自动匹配。
技术关键词
文本
主题
语义
关键词
词语
LDA模型
实体
划分方法
BERT模型
关系型数据库
模板
矩阵
字体
分词
自然语言
算法
数据项
格式化
颜色
系统为您推荐了相关专利信息
测试接口
信息提取规则
自然语言模型
接口测试工具
控制设备