文档识别方法、装置、计算机设备和存储介质

正文

推荐专利

申请号：CN202411070521

申请日期：2024-08-06

公开号：CN118865427A

公开日期：2024-10-29

类型：发明专利

摘要

本申请涉及一种文档识别方法、装置、计算机设备和存储介质。该方法包括：获取待识别文档图像，对待识别文档图像进行结构识别，得到待识别文档图像的结构化信息；根据结构化信息对待识别文档图像进行区域裁切，得到至少一个区域图块；基于文字识别模型对各区域图块中的文字内容进行识别，得到各区域图块中的无格式文本信息；将各区域图块和无格式文本信息填入提示模块，并将填充后的提示模块作为多模态大模型的输入，得到多模态大模型输出的文档识别结果；根据文档识别结果以及结构化信息，得到待识别文档图像对应的格式化的可编辑文档。采用本方法能够提高文档识别的准确性。

技术关键词

识别文档图像多模态无格式文本文档识别方法区域位置信息大语言模型图片文本段落文档识别装置图像视觉识别计算机设备模块格式化编码器机器学习模型数据分词多轮对话

系统为您推荐了相关专利信息

一种AR智能光伏巡检方法及系统

巡检路径关键故障特征异常点光伏组件巡检方法

一种基于运动单元活动与表面肌电信号融合的无声语音识别方法

表面肌电信号语音识别方法语音识别模型肌电信号采集设备多通道肌电信号

一种紧凑式煤矿瓦斯多模态燃烧装置及其工作方法

气体浓度监测装置流量调节阀进气口火焰监测器煤矿瓦斯混合气体

一种SAR-可见光-红外的跨模态图像匹配方法

图像特征向量图像匹配方法车辆处理单元机载遥感图像

一种基于AIGC技术生成商品详情页的方法、系统及装置

艺术字商品详情页多模态自然语言生成提示词

文档识别方法、装置、计算机设备和存储介质

站点导航

APP 下载