摘要
本发明公开了一种用于多模态文档转换的视觉语言模型系统转换方法,该视觉语言模型系统包括有视觉语言模型模块和统一标记格式转换模块,设定一种识别文档页面中的各元素类型以及各元素对应的空间位置和具体内容的标记格式DocTags,视觉语言模型模块通过训练SmolVLM‑256M视觉语言模型所得,且在训练中在SmolVLM‑256M视觉语言模型中嵌入标记格式DocTags,该转换方法包括有S1输入一页文档图像后,视觉语言模型系统生成视觉嵌入并投影为标记序列;S2视觉语言模型系统通过标记格式DocTags识别页面中的元素类型,以及各元素对应的空间位置和具体内容;S3根据用户指令,视觉语言模型系统输出完整页面转换结果或部分元素的预测结果,支持多样化文档类型,提升转换准确性及提高模型泛化能力。
技术关键词
转换方法
视觉
多模态
格式
标记
元素
识别页面
重排方法
文本编码器
语言模块
图表
表格
注意力机制
数据
像素块
图片
标签