摘要
本申请涉及自然语言处理技术领域,具体涉及基于OCR和自然语言处理的合同文本信息提取方法,该方法包括:基于业绩报告待测词汇与其他各词汇的共现概率以及合同文件与业绩报告中待测词汇的词向量之间的差异计算待测词汇的主题词概率;计算合同文件中待测词汇所在句子与业绩报告中待测词汇的相近词所在句子的内容相关度;基于所述主题词概率及所述内容相关度计算待测词汇的综合相关性,基于所有待测词汇的综合相关性获取合同文件中与业绩报告具有相关性的词汇,将所述具有相关性的词汇所在的句子进行提取;避免对无关、低相关词汇的误判,提高了对合同文件信息中与业绩报告相关部分信息的提取精度。
技术关键词
信息提取方法
自然语言
报告
阈值分割算法
文本
表达式
图像处理技术
度函数
矩形
数据
精度
系统为您推荐了相关专利信息
访问权限控制方法
访问控制列表
元素
访问权限控制系统
文档访问技术
自动化验证方法
自动化验证系统
操作系统
决策树模型
系统配置信息