摘要
本发明涉及计算机技术领域,公开了一种用于大模型训练的文档格式转换方法及装置,包括:基于多个分类指标对PDF文档进行分类得到文档类型;当文档类型为图像型时,进行图像转换与预处理,得到预处理页面图像;解析预处理页面图像得到多模态内容,并分别进行处理得到对应的处理结果;对PDF文档进行内容重建与优化,得到第一中间文档;对第一中间文档进行内容重排,得到Markdown文档。本发明通过综合多个维度对PDF文档准确分类,对不同类型的文档进行差异化的格式转换,提升格式转换的效率与准确性,使得生成的Markdown文档既符合原始PDF文档,又语义连贯、格式规范且适配大模型输入要求,从而能够提高模型训练效果。
技术关键词
文本
文档格式转换方法
多模态
指标
表格
格式转换装置
页面特征
图像处理
分块策略
图像还原
大语言模型
布局
图像增强
视觉
长宽比
语义
冗余
系统为您推荐了相关专利信息
知识图谱补全方法
结构编码器
实体
文本编码器
语义
地物要素
遥感影像特征
自然资源
地物特征
指标关联方法
知识问答系统
多模态
发电设备
向量检索技术
解析器
字符串字典
列表
基础
数据处理模块
大数据分析技术