一种基于多粒度预测的文档视觉问答任务的文档处理方法

正文

推荐专利

申请号：CN202411934755

申请日期：2024-12-26

公开号：CN119886336A

公开日期：2025-04-25

类型：发明专利

摘要

本发明提出了一种基于多粒度预测的文档视觉问答任务的文档处理方法，包括以下步骤：S1，识别输入文档的格式并提取其中的文本与图像信息；S2，采用自然语言处理技术对文本进行语义理解和上下文分析；S3，通过深度学习模型将文本信息与视觉信息进行联合嵌入与对齐，捕捉文档中的显式语义信息；S4，基于用户输入的问题，结合文本和视觉信息进行多粒度匹配，并生成预测的答案。本发明的创新之处在于引入了多粒度检索与推理机制，通过增强模型对短距离上下文关系的建模能力，显著提升了答案预测的准确性。此外，采用的验证编辑推理框架提高了答案预测过程的可解释性，使得生成的答案具有更高的透明度和可信度，特别适用于精度要求较高的任务环境。

技术关键词

文本答案语义角色标注视觉深度学习模型模态特征格式注意力机制图像文件扩展名命名实体识别自然语言光学字符识别多模态信息摘要技术推理网络深度神经网络推理机制

系统为您推荐了相关专利信息

对小说进行信息提取和汇总的方法、电子设备和存储介质

大语言模型文本知识图谱数据库构建知识图谱电子设备

一种X波段相控阵雷达分钟雨量降水估测方法

降水估测方法相控阵雷达雨量计反射率数据 X波段

异构数据库数据迁移方法

异构数据库数据迁移方法对象脚本数据迁移技术

一种基于AI的二回路热媒设备监测系统

设备监测系统设备状态监测 AI算法回路深度学习模型

一种基于传感器的机械设备可视化检测机器人及其系统

管道机器人检测机器人系统视觉检测模块机械设备十字轨道

一种基于多粒度预测的文档视觉问答任务的文档处理方法

站点导航

APP 下载