基于图文交错的视觉语言多模态大语言模型预训练方法

AITNT
正文
推荐专利
基于图文交错的视觉语言多模态大语言模型预训练方法
申请号:CN202411514057
申请日期:2024-10-29
公开号:CN119377678A
公开日期:2025-01-28
类型:发明专利
摘要
本发明公开了一种基于图文交错的视觉语言多模态大语言模型(Vision Large Language Model,VLM)预训练方法。其包括以下步骤:S1、构建图文交错数据集,图片描述数据集,文本数据集S2、构建多模态大语言模型架构,利用图片描述进行视觉模型的向量空间向文本向量空间的初步融合S3、利用图文交错数据,融合视觉信息与文本信息,优化多模态大模型对视觉的理解能力。通过本方案,可以在保持大语言模型在文本理解,逻辑推理的能力的情况下,充分融合视觉信息与文本信息在生成大模型的视觉理解能力。同时,由于图文交错数据的构建,该方法训练的多模态大模型具备处理多张图片的能力。本方案适用于AIGC领域。
技术关键词
大语言模型 预训练方法 多模态 图文 图片 融合视觉 数据 注意力 文本理解 文本编码器 图像编码器 矩阵 线性 样本 书籍 网络 论文 分词
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号