基于语义相似度对文本提取数据相似度匹配方法

正文

推荐专利

申请号：CN202411699658

申请日期：2024-11-26

公开号：CN119720991A

公开日期：2025-03-28

类型：发明专利

摘要

本发明涉及一种基于语义相似度对文本提取数据相似度匹配方法，属于自然语言处理领域。本发明获取并处理实体数据作为实体数据的标准词库，初始语义相似度模型训练，选取文档中的候选文本，获得文档主题及其分布，计算文档主题和各个事件领域的主题相似度来确定文档的类别，利用标准的事件领域划分方法，创建事件抽取模板，根据文档主题类别抽取文档数据至对应的事件抽取模板，将非结构化数据转化为结构化数据，从结构化数据中，识别实体数据作为待匹配文本，利用语义相似度模型确定待匹配文本和目标文本之间的相似度。本发明实现了对非结构化文档中的名词类文本与标准实体文本的自动匹配。

技术关键词

文本主题语义关键词词语 LDA模型实体划分方法 BERT模型关系型数据库模板矩阵字体分词自然语言算法数据项格式化颜色

系统为您推荐了相关专利信息

一种用户请求处理方法、用户请求处理装置以及计算设备集群

数据计算机程序指令关键词集群覆盖率

浏览器的控制方法、浏览器的控制设备以及可读存储介质

测试接口信息提取规则自然语言模型接口测试工具控制设备

一种AutoCAD设计图中隐藏其他图纸的检测方法

双线性插值算法图纸元素表达式像素

可执行临床路径生成方法、装置、电子设备及存储介质

路径生成方法文本基座医学专业路径生成装置

三维探地雷达地下病害识别模型复杂环境自适应训练方法

三维探地雷达编码特征上采样样本混合域

基于语义相似度对文本提取数据相似度匹配方法

站点导航

APP 下载