摘要
本申请涉及人工智能技术领域,具体提供一种基于多模态大模型的文本生成方法、装置、设备及介质,旨在解决将大尺寸图像输入至视觉语言模型,得到的回答准确率低的问题。本申请包括:将图像进行采样,得到多个子图;将图像进行切分,得到多个切图;将多个子图输入至第i子图特征提取模型,得到子图特征;将多个切图输入至第i切图特征提取模型,得到切图特征;根据子图特征和切图特征,得到第一损失值;将子图特征和问题编码进行组合,得到组合特征;将组合特征输入至第i大语言模型,得到第二损失值;根据第一损失值和第二损失值,对第i大语言模型、第i子图特征提取模型和第i切图特征提取模型进行更新处理,在确定达到预设条件后,得到预设模型。
技术关键词
特征提取模型
文本生成方法
多模态
原始图像数据
融合特征
图像模板
文本生成装置
编码
模块
像素
人工智能技术
答案
处理器
可读存储介质
存储器
线性
序列
电子设备
系统为您推荐了相关专利信息
智能预测系统
多模型
历史风速数据
数据采集模块
融合特征
融合识别方法
双向特征金字塔
融合图像数据
轨迹特征
注意力
文本特征向量
时空融合特征
局部空间特征
特征提取模块
注意力机制
时序
温度预测方法
锂电池
时间卷积网络
频域特征提取
智能梳子
模型算法
数据存储模块
信号采集模块
多模态