摘要
本公开提供了文档图像还原及多模态大模型训练方法和装置,涉及计算机视觉、深度学习以及大模型等人工智能领域。其中的方法可包括:获取待处理的目标文档图像;将目标文档图像作为多模态大模型的输入,得到输出的第一文件,第一文件为符合预定表示格式的超文本标记语言文件;根据第一文件生成作为还原结果的第二文件,第二文件为可编辑的文件,且第二文件中包括目标文档图像中的文档内容。
技术关键词
超文本标记语言
表格
坐标
样本
大语言模型
多模态
语义特征
图像编码器
标签
模型训练方法
矫正
格式
图像特征提取
模型训练模块
图像获取模块
图像还原装置
图像还原方法
系统为您推荐了相关专利信息
机器学习模型
数据
点云
训练样本集
可读存储介质
细胞分割方法
宫颈
图像分割模型
形态学特征
结构编码器