摘要
本发明提供一种基于合同OCR识别的合同重点信息提取方法和系统,涉及文件处理技术领域,所述方法包括:通过ORC识别系统获得合同页面的文本信息,并标注文本信息所属的合同页面和第一位置信息;通过图像识别模型对合同页面图像进行识别,确定章节标题的第一区域,段落的第二区域和签名或盖章位置的第三区域;根据第一位置信息、第一区域和第二区域,确定文本信息的文本类型及其所属的章节和段落;根据文本类型和语义识别模型,筛选重点章节标题;根据段落的文本信息和语义识别模型,确定重点文本内容。根据本发明,可筛选合同中重点内容,便于合同审核人员查看和审核,有效降低合同审核的难度,以及审核合同消耗的人力和成本。
技术关键词
语义向量
信息提取方法
文本段落
图像识别模型
字词
识别系统
信息提取系统
扫描设备
标签
盖章
页面模块
扫描模块
匹配模块
识别模块
报告
系统为您推荐了相关专利信息
主题词提取方法
档案标签
字段
人工智能模型
输出模块
异构数据处理方法
标签组
表格
关键词
计算机程序产品
转向平台
图像识别模型
清洗设备
光伏组件表面
水压
迭代优化算法
关键词
大语言模型
数据处理方法
计算机设备