文档识别方法、装置、计算机设备和存储介质

AITNT
正文
推荐专利
文档识别方法、装置、计算机设备和存储介质
申请号:CN202411070521
申请日期:2024-08-06
公开号:CN118865427A
公开日期:2024-10-29
类型:发明专利
摘要
本申请涉及一种文档识别方法、装置、计算机设备和存储介质。该方法包括:获取待识别文档图像,对待识别文档图像进行结构识别,得到待识别文档图像的结构化信息;根据结构化信息对待识别文档图像进行区域裁切,得到至少一个区域图块;基于文字识别模型对各区域图块中的文字内容进行识别,得到各区域图块中的无格式文本信息;将各区域图块和无格式文本信息填入提示模块,并将填充后的提示模块作为多模态大模型的输入,得到多模态大模型输出的文档识别结果;根据文档识别结果以及结构化信息,得到待识别文档图像对应的格式化的可编辑文档。采用本方法能够提高文档识别的准确性。
技术关键词
识别文档图像 多模态 无格式文本 文档识别方法 区域位置信息 大语言模型 图片 文本段落 文档识别装置 图像视觉识别 计算机设备 模块 格式化 编码器 机器学习模型 数据 分词 多轮对话
系统为您推荐了相关专利信息
1
一种AR智能光伏巡检方法及系统
巡检路径 关键故障特征 异常点 光伏组件 巡检方法
2
一种基于运动单元活动与表面肌电信号融合的无声语音识别方法
表面肌电信号 语音识别方法 语音识别模型 肌电信号采集设备 多通道肌电信号
3
一种紧凑式煤矿瓦斯多模态燃烧装置及其工作方法
气体浓度监测装置 流量调节阀 进气口 火焰监测器 煤矿瓦斯混合气体
4
一种SAR-可见光-红外的跨模态图像匹配方法
图像特征向量 图像匹配方法 车辆 处理单元 机载遥感图像
5
一种基于AIGC技术生成商品详情页的方法、系统及装置
艺术字 商品详情页 多模态 自然语言 生成提示词
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号