摘要
本发明提供基于多模态文档信息配置提取的方法及系统,方法包括:对文档初步分析,识别文件类型与格式,文档预处理;根据文档类型与内容分布选择最适配的识别模式,配置相应识别参数;针对不同类型识别结果,采用定制化提取策略和识别提取规则,按类别设定提取要素;确定每项识别提取规则对应的文档页码位置,精确提取所需信息;将提取结果回调;记录保存识别提取规则及识别提取配置。本发明在多种维度上精确定义提取范围,提高提取过程精准性和适应性;设计处理正则表达式匹配结果重叠问题算法,提高高亮处理准确性和文档可读性;提供图形用户界面,允许用户直观地预览识别结果及高亮效果,支持即时反馈和调整,提升了用户操作的直观性和便捷性。
技术关键词
多模态
表格
缓存机制
合并单元格
图形用户界面
上传方式
保证系统安全性
文本
格式
索引
计算机设备
定义提取
参数
关键词
处理器
坐标
元素
信息模块
分辨率
数据
系统为您推荐了相关专利信息
状态控制方法
燃烧室
异常状态
信号分析系统
燃烧组件
数据关联信息
标签
多模态
数据存储方法
计算机程序指令
人工智能模型
节点
拓展单元
生成知识图谱
人机交互界面