摘要
本申请涉及一种文档识别方法、装置、计算机设备和存储介质。该方法包括:获取待识别文档图像,对待识别文档图像进行结构识别,得到待识别文档图像的结构化信息;根据结构化信息对待识别文档图像进行区域裁切,得到至少一个区域图块;基于文字识别模型对各区域图块中的文字内容进行识别,得到各区域图块中的无格式文本信息;将各区域图块和无格式文本信息填入提示模块,并将填充后的提示模块作为多模态大模型的输入,得到多模态大模型输出的文档识别结果;根据文档识别结果以及结构化信息,得到待识别文档图像对应的格式化的可编辑文档。采用本方法能够提高文档识别的准确性。
技术关键词
识别文档图像
多模态
无格式文本
文档识别方法
区域位置信息
大语言模型
图片
文本段落
文档识别装置
图像视觉识别
计算机设备
模块
格式化
编码器
机器学习模型
数据
分词
多轮对话
系统为您推荐了相关专利信息
巡检路径
关键故障特征
异常点
光伏组件
巡检方法
表面肌电信号
语音识别方法
语音识别模型
肌电信号采集设备
多通道肌电信号
气体浓度监测装置
流量调节阀
进气口
火焰监测器
煤矿瓦斯混合气体
图像特征向量
图像匹配方法
车辆
处理单元
机载遥感图像