摘要
本申请提供一种文档图像的处理方法、电子设备、存储介质,包括:将文档图像输入已训练的统一模型,得到文档图像中每个目标区域对应的多种不同类别的识别结果;针对每个目标区域,根据目标区域对应的多种不同类别的识别结果,生成目标区域对应的提示文本;将每个目标区域的提示文本以及接收的用户问题,输入已训练的多模态模型,获得多模态模型输出的用户问题对应的文档理解结果。用以充分融合多种模态的信息,对复杂文档图像进行针对性理解,提升文档图像处理的准确性、灵活性和实用性。
技术关键词
文本识别模型
残差模块
文档图像处理
电子设备
中间件
处理器
多模态
标签
计算机程序产品
图表
样本
可读存储介质
指令
存储器
动态
参数
系统为您推荐了相关专利信息
资源使用量
服务器
概率密度函数
生成样本数据
模运算
冷水机组
数据优化方法
训练样本数据
预测误差
随机森林
血管
ROI图像
转移预测方法
空间框架
语义分割模型
风力发电机组故障
嵌入式系统
电压
云端存储系统
识别方法