多模态大模型的训练方法、文档理解方法以及设备

AITNT
正文
推荐专利
多模态大模型的训练方法、文档理解方法以及设备
申请号:CN202411856307
申请日期:2024-12-16
公开号:CN119832567A
公开日期:2025-04-15
类型:发明专利
摘要
本公开提供了多模态大模型的训练方法、文档理解方法以及设备,涉及人工智能技术领域,尤其涉及深度学习、自然语言处理、计算机视觉、大模型等技术领域。具体实现方案为:获取训练数据,其中,训练数据包括文档理解任务下的样本文档图像、样本文档图像对应的样本问题和样本问题的样本回答;将样本文档图像和样本问题输入第一多模态大模型,获取预测回答,其中,第一多模态大模型为预先训练的、与文档理解任务无关的多模态大模型;根据预测回答和样本回答,对第一多模态大模型进行训练,得到第二多模态大模型。由此,降低了模型训练难度以及模型训练成本。
技术关键词
多模态 样本 图像 文本 大语言模型 跨模态 光学字符识别 模块 尺寸 数据 人工智能技术 计算机程序产品 计算机视觉 训练装置 处理器通信 图表 自然语言
系统为您推荐了相关专利信息
1
一种基于视频图像的通信线路工程安全巡检方法及系统
通信线路工程 实时视频图像 巡检方法 风险 巡检系统
2
一种重要性-多样性耦合的多模态大模型微调数据高效选择方法
数据 融合特征 评分特征 嵌入特征 权重模型
3
一种激光扫描装置以及投影成像设备
激光扫描装置 变焦透镜 投影成像设备 激光束 坐标系
4
基于时钟数据对齐算法的图像数据传输方法及系统
图像数据传输方法 信号 时钟 图像数据传输技术 图像数据传输系统
5
一种生成CTO-PCI手术评估报告的方法和系统
冠状动脉血管造影 手术 CT扫描系统 报告 大语言模型
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号