一种用于多模态文档转换的视觉语言模型系统转换方法

正文

推荐专利

申请号：CN202510992051

申请日期：2025-07-18

公开号：CN120913228A

公开日期：2025-11-07

类型：发明专利

摘要

本发明公开了一种用于多模态文档转换的视觉语言模型系统转换方法，该视觉语言模型系统包括有视觉语言模型模块和统一标记格式转换模块，设定一种识别文档页面中的各元素类型以及各元素对应的空间位置和具体内容的标记格式DocTags，视觉语言模型模块通过训练SmolVLM‑256M视觉语言模型所得，且在训练中在SmolVLM‑256M视觉语言模型中嵌入标记格式DocTags，该转换方法包括有S1输入一页文档图像后，视觉语言模型系统生成视觉嵌入并投影为标记序列；S2视觉语言模型系统通过标记格式DocTags识别页面中的元素类型，以及各元素对应的空间位置和具体内容；S3根据用户指令，视觉语言模型系统输出完整页面转换结果或部分元素的预测结果，支持多样化文档类型，提升转换准确性及提高模型泛化能力。

技术关键词

转换方法视觉多模态格式标记元素识别页面重排方法文本编码器语言模块图表表格注意力机制数据像素块图片标签

一种用于多模态文档转换的视觉语言模型系统转换方法

站点导航

APP 下载