用于富视觉文档中非文本对象分析与理解的统一解决方法

正文

推荐专利

申请号：CN202510051564

申请日期：2025-01-14

公开号：CN119992575A

公开日期：2025-05-13

类型：发明专利

摘要

本发明公开了一种用于富视觉文档中非文本对象分析与理解的统一解决方法，包括步骤：S1、输入富视觉文档至UNTOA‑VRD模型，UNTOA‑VRD模型对富视觉文档执行版面分析P，用户输入指令形成用户指令C，UNTOA‑VRD模型根据用户指令C形成识别任务T；根据识别任务T的情况分别输出分析结果R，R＝P；R＝P∪{rt∣t∈T}；R＝{rt∣t∈T}；采用上述方法，使得模型可以对多任务进行统一分析，不仅简化了建模过程，还在提高了富视觉文档理解的整体准确性的同时，增强了多任务分析之间的协同性。

技术关键词

大语言模型视觉文本对象多任务指令算法模块表格数据图表标签

系统为您推荐了相关专利信息

一种通用遥感数据解译系统、方法、设备及介质

遥感数据解译方法基础算法数据模块指令

一种基于AI优化的关停系统数据归档方法及系统

数据归档方法关停系统文件夹终端文本

一种针对模糊字体的文字检测方法、系统和终端设备

文本图像文字检测方法多尺度特征融合像素点

基于路径增强的图检索增强生成方法

生成方法答案三元组逻辑构建知识图谱

一种个性化营销内容推荐方法

内容推荐方法深度学习算法更新用户兴趣场景构建用户画像

用于富视觉文档中非文本对象分析与理解的统一解决方法

站点导航

APP 下载