一种用于大模型训练的文档格式转换方法及装置

AITNT
正文
推荐专利
一种用于大模型训练的文档格式转换方法及装置
申请号:CN202510852153
申请日期:2025-06-24
公开号:CN120763117A
公开日期:2025-10-10
类型:发明专利
摘要
本发明涉及计算机技术领域,公开了一种用于大模型训练的文档格式转换方法及装置,包括:基于多个分类指标对PDF文档进行分类得到文档类型;当文档类型为图像型时,进行图像转换与预处理,得到预处理页面图像;解析预处理页面图像得到多模态内容,并分别进行处理得到对应的处理结果;对PDF文档进行内容重建与优化,得到第一中间文档;对第一中间文档进行内容重排,得到Markdown文档。本发明通过综合多个维度对PDF文档准确分类,对不同类型的文档进行差异化的格式转换,提升格式转换的效率与准确性,使得生成的Markdown文档既符合原始PDF文档,又语义连贯、格式规范且适配大模型输入要求,从而能够提高模型训练效果。
技术关键词
文本 文档格式转换方法 多模态 指标 表格 格式转换装置 页面特征 图像处理 分块策略 图像还原 大语言模型 布局 图像增强 视觉 长宽比 语义 冗余
系统为您推荐了相关专利信息
1
一种基于语义信息和结构信息的渐进式知识图谱补全方法
知识图谱补全方法 结构编码器 实体 文本编码器 语义
2
CATIA高版本模型向低版本转换的方法
CATIA软件 装配体 格式 读取工艺 重构模型
3
基于AI辅助的自然资源要素跨图层指标关联方法及系统
地物要素 遥感影像特征 自然资源 地物特征 指标关联方法
4
一种基于检索增强生成的发电设备多模态知识问答方法
知识问答系统 多模态 发电设备 向量检索技术 解析器
5
以字段关联为基础的多个元素标准化对应方法及系统
字符串字典 列表 基础 数据处理模块 大数据分析技术
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号