摘要
本申请公开了一种视觉语言大模型的参数对齐方法、装置及存储介质,涉及人工智能领域。包括:收集包含图像和对应文本描述的多模态数据集;对图像数据和文本数据进行预处理;将预处理多模态数据进行特征提取,生成特征向量;基于Transformer的架构分别构建视觉模型和语言模型;加入多模态对齐模块,将视觉模型和语言模型的参数进行关联;通过采用多模态结合多任务训练方法,将预处理多模态数据输入至视觉和语言模型,并对视觉模型和语言模型进行联合训练;通过相似度算法,计算图像和文本特征向量之间的关联程度;通过自回归算法和三元组损失函数对视觉模型和语言模型进行优化,得到视觉语言大模型,具有参数对齐能力,能够在图像和文本之间建立对应关系。
技术关键词
文本特征向量
图像特征向量
多模态
三元组损失函数
视觉
对齐方法
对齐模块
回归算法
生成特征向量
参数
图像编辑器
跨模态
对齐装置
输入输出单元
数据
模态特征
文本编码器
系统为您推荐了相关专利信息
气象卫星遥感数据
海雾检测方法
静止气象卫星
运动特征
多通道
状态监测系统
硬压板
非晶硅薄膜太阳能
电源管理单元
多模态
指数衰减函数
度量
激光雷达点云
卡尔曼滤波跟踪
协方差矩阵
特种作业车辆
信息采集模块
影像
构建预测模型
安全监控预警系统