一种面向大语言模型的多模态迁移学习方法

AITNT
正文
推荐专利
一种面向大语言模型的多模态迁移学习方法
申请号:CN202410982010
申请日期:2024-07-22
公开号:CN118863010A
公开日期:2024-10-29
类型:发明专利
摘要
本发明提供一种面向大语言模型的多模态迁移学习方法,利用冻结的图像编码器提取多尺度的图像特征,与一个可学习的模态指示表征和所有的文本特征拼接输入大语言模型进行建模,在图像编码器和大语言模型的自注意力层后都设置轻量级的Adapter模块,迁移学习时仅需更新这些模块的参数即可;在图文问题上,本发明还利用交叉注意力机制在输入特征中生成能够衔接图像与文本的融合提示,更好地指导大语言模型生成更为准确的回答;同时,基于∈‑贪心算法事先搜索到融合提示在大语言模型中的最佳放置层K。本发明方法可实现以低成本、高效率的将大语言模型的通用知识快速迁移至特定多模态任务中,实现单模态和多模态文本指令之间的自动切换。
技术关键词
大语言模型 迁移学习方法 图像编码器 迁移方法 文本 多层感知机 贪心算法 视觉特征 解码器 交叉注意力机制 多模态 模块 池化特征 序列特征 输出特征 参数 上采样 多尺度
系统为您推荐了相关专利信息
1
基于小波变换和大语言模型的时间序列预测方法及装置
时间序列预测方法 时间序列预测模型 大语言模型 时间序列预测系统 非暂态计算机可读存储介质
2
一种基于大语言模型的生成式对话系统
大语言模型 对话系统 注意力机制 多轮对话 前馈神经网络
3
基于地名时空派生关系网络的空间模糊位置确定方法及装置
模糊位置信息 特征识别方法 空间邻近关系 关系网络 地物信息
4
基于用户需求的文本数据的生成方法、装置、设备及介质
实体 文本 语义 词语 计算机执行指令
5
基于对比学习和结构化信息增强多模态特征融合的方法
多模态特征融合 文本编码器 视觉特征 图片 样本
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号