摘要
本公开提供了多模态大模型的训练方法、文档理解方法以及设备,涉及人工智能技术领域,尤其涉及深度学习、自然语言处理、计算机视觉、大模型等技术领域。具体实现方案为:获取训练数据,其中,训练数据包括文档理解任务下的样本文档图像、样本文档图像对应的样本问题和样本问题的样本回答;将样本文档图像和样本问题输入第一多模态大模型,获取预测回答,其中,第一多模态大模型为预先训练的、与文档理解任务无关的多模态大模型;根据预测回答和样本回答,对第一多模态大模型进行训练,得到第二多模态大模型。由此,降低了模型训练难度以及模型训练成本。
技术关键词
多模态
样本
图像
文本
大语言模型
跨模态
光学字符识别
模块
尺寸
数据
人工智能技术
计算机程序产品
计算机视觉
训练装置
处理器通信
图表
自然语言
系统为您推荐了相关专利信息
通信线路工程
实时视频图像
巡检方法
风险
巡检系统
激光扫描装置
变焦透镜
投影成像设备
激光束
坐标系
图像数据传输方法
信号
时钟
图像数据传输技术
图像数据传输系统
冠状动脉血管造影
手术
CT扫描系统
报告
大语言模型