一种视觉语言大模型的参数对齐方法、装置及存储介质

正文

推荐专利

申请号：CN202510095871

申请日期：2025-01-22

公开号：CN119558379A

公开日期：2025-03-04

类型：发明专利

摘要

本申请公开了一种视觉语言大模型的参数对齐方法、装置及存储介质，涉及人工智能领域。包括：收集包含图像和对应文本描述的多模态数据集；对图像数据和文本数据进行预处理；将预处理多模态数据进行特征提取，生成特征向量；基于Transformer的架构分别构建视觉模型和语言模型；加入多模态对齐模块，将视觉模型和语言模型的参数进行关联；通过采用多模态结合多任务训练方法，将预处理多模态数据输入至视觉和语言模型，并对视觉模型和语言模型进行联合训练；通过相似度算法，计算图像和文本特征向量之间的关联程度；通过自回归算法和三元组损失函数对视觉模型和语言模型进行优化，得到视觉语言大模型，具有参数对齐能力，能够在图像和文本之间建立对应关系。

技术关键词

文本特征向量图像特征向量多模态三元组损失函数视觉对齐方法对齐模块回归算法生成特征向量参数图像编辑器跨模态对齐装置输入输出单元数据模态特征文本编码器

系统为您推荐了相关专利信息

基于静止气象卫星多通道亮温差驱动的时序海雾检测方法

气象卫星遥感数据海雾检测方法静止气象卫星运动特征多通道

基于多模态传感数据的硬压板状态监测系统

状态监测系统硬压板非晶硅薄膜太阳能电源管理单元多模态

一种空间感知观测信息质量评估方法、系统、终端及介质

指数衰减函数度量激光雷达点云卡尔曼滤波跟踪协方差矩阵

一种特种作业车辆安全监控预警方法及系统

特种作业车辆信息采集模块影像构建预测模型安全监控预警系统

一种发泡材料成型用自动生产方法

七轴机器人自动生产方法发泡材料片材工位

一种视觉语言大模型的参数对齐方法、装置及存储介质

站点导航

APP 下载