一种支持图片拼接的多模态大模型训练方法

正文

推荐专利

一种支持图片拼接的多模态大模型训练方法

申请号：CN202410713205

申请日期：2024-06-04

公开号：CN120953084A

公开日期：2025-11-14

类型：发明专利

摘要

本发明涉及多模态模型训练技术领域，具体地说，涉及一种支持图片拼接的多模态大模型训练方法。其包括以下步骤：S1、使用混合多模态融合技术，结合BERT架构以及Vision Transformer视觉模型，构建图像拼接多模态模型；S2、使用风格损失函数来调整生成图像的风格，实现高质量的风格迁移;S3、使用主判别器与辅判别器评估生成图像的质量，计算判别器损失和辅判别器损失进行优化拼接图像;S4、实施端到端训练，使用学习率调度器和数据增强技术，提高模型效率。该一种支持图片拼接的多模态大模型训练方法，通过使用混合多模态融合技术实现文本和图像数据的高效融合，并通过风格损失函数调整生成图像的风格以及端到端训练，提高图像拼接的准确性、视觉一致性。

技术关键词

模型训练方法多模态融合技术图像拼接风格多头注意力机制融合特征图片文本多模态特征对齐技术矩阵编码向量拼接模块分类器数学模型跨模态模型训练技术

系统为您推荐了相关专利信息

水箱识别方法、装置、电子设备及车辆

车辆水箱图像文本检测模型色彩识别方法

模型训练方法、装置及可读存储介质

制冷设备送风参数网络设备仿真数据模型训练装置

光伏场站道路交通预警系统

道路交通预警系统多模态传感器数据处理模块子模块三维空间模型

光声图像重建模型训练方法、装置、设备及介质

图像重建高频特征分量特征水平高频分量模型训练方法

分类模型训练方法、图像分类方法、装置、设备及介质

分类模型训练方法分类网络图像分类方法分支基础

一种支持图片拼接的多模态大模型训练方法

站点导航

APP 下载