一种面向大语言模型的多模态迁移学习方法

正文

推荐专利

一种面向大语言模型的多模态迁移学习方法

申请号：CN202410982010

申请日期：2024-07-22

公开号：CN118863010A

公开日期：2024-10-29

类型：发明专利

摘要

本发明提供一种面向大语言模型的多模态迁移学习方法，利用冻结的图像编码器提取多尺度的图像特征，与一个可学习的模态指示表征和所有的文本特征拼接输入大语言模型进行建模，在图像编码器和大语言模型的自注意力层后都设置轻量级的Adapter模块，迁移学习时仅需更新这些模块的参数即可；在图文问题上，本发明还利用交叉注意力机制在输入特征中生成能够衔接图像与文本的融合提示，更好地指导大语言模型生成更为准确的回答；同时，基于∈‑贪心算法事先搜索到融合提示在大语言模型中的最佳放置层K。本发明方法可实现以低成本、高效率的将大语言模型的通用知识快速迁移至特定多模态任务中，实现单模态和多模态文本指令之间的自动切换。

技术关键词

大语言模型迁移学习方法图像编码器迁移方法文本多层感知机贪心算法视觉特征解码器交叉注意力机制多模态模块池化特征序列特征输出特征参数上采样多尺度

系统为您推荐了相关专利信息

基于小波变换和大语言模型的时间序列预测方法及装置

时间序列预测方法时间序列预测模型大语言模型时间序列预测系统非暂态计算机可读存储介质

一种基于大语言模型的生成式对话系统

大语言模型对话系统注意力机制多轮对话前馈神经网络

基于地名时空派生关系网络的空间模糊位置确定方法及装置

模糊位置信息特征识别方法空间邻近关系关系网络地物信息

基于用户需求的文本数据的生成方法、装置、设备及介质

实体文本语义词语计算机执行指令

基于对比学习和结构化信息增强多模态特征融合的方法

多模态特征融合文本编码器视觉特征图片样本

一种面向大语言模型的多模态迁移学习方法

站点导航

APP 下载