摘要
本发明公开了一种用于富视觉文档中非文本对象分析与理解的统一解决方法,包括步骤:S1、输入富视觉文档至UNTOA‑VRD模型,UNTOA‑VRD模型对富视觉文档执行版面分析P,用户输入指令形成用户指令C,UNTOA‑VRD模型根据用户指令C形成识别任务T;根据识别任务T的情况分别输出分析结果R,R=P;R=P∪{rt∣t∈T};R={rt∣t∈T};采用上述方法,使得模型可以对多任务进行统一分析,不仅简化了建模过程,还在提高了富视觉文档理解的整体准确性的同时,增强了多任务分析之间的协同性。
技术关键词
大语言模型
视觉
文本
对象
多任务
指令
算法模块
表格
数据
图表
标签
系统为您推荐了相关专利信息
内容推荐方法
深度学习算法
更新用户兴趣
场景
构建用户画像