文档处理方法、模型训练方法、装置、设备和存储介质

正文

推荐专利

申请号：CN202410866994

申请日期：2024-06-28

公开号：CN118734949A

公开日期：2024-10-01

类型：发明专利

摘要

本公开实施例涉及一种文档处理方法、模型训练方法、装置、设备和存储介质。模型训练方法包括：获取文档样本对应的文本信息、文本信息在文档样本中的布局信息、问题样本和问题样本对应的参照答案；布局信息用于表征文本信息位置；对布局信息进行向量化处理，生成布局向量，并对文本信息进行向量化处理，生成文本向量；基于文本信息和布局信息的对应关系，交错排列布局向量和文本向量，并将交错排列的布局向量和文本向量、以及问题样本，输入初始文档处理模型，确定预测答案；基于预测答案和参照答案，对初始文档处理模型进行迭代训练，生成目标文档处理模型。根据本公开实施例，在不增加额外的输入长度的同时，还提高了文档处理的精度。

技术关键词

布局文本模型训练方法答案样本矩阵光学字符识别模型训练装置模型训练模块处理器关系可读存储介质指令存储器电子设备计算机坐标精度

系统为您推荐了相关专利信息

一种基于语言模型的智能双语法律问答方法和系统

问答方法大语言模型语义库文本注意力机制

一种基于RPA-CRISPR/Cas12b技术的水稻三种病原菌快速检测方法

水稻细菌性条斑病菌离心式微流控芯片引物核苷酸快速检测方法

一种基于Modelica的数字化隔振系统设计优化方法

隔振系统隔振元件设计优化方法阻尼元件刚度

一种基于自然语言处理的材料信息语义映射控制方法

映射控制方法语义知识图谱语义协同跨模态概念

一种基于时序对齐和语义增强的多模态视频摘要生成方法

视频摘要生成方法动态时间规整语义视觉特征文本

文档处理方法、模型训练方法、装置、设备和存储介质

站点导航

APP 下载