一种视觉语言大模型的参数对齐方法、装置及存储介质

AITNT
正文
推荐专利
一种视觉语言大模型的参数对齐方法、装置及存储介质
申请号:CN202510095871
申请日期:2025-01-22
公开号:CN119558379A
公开日期:2025-03-04
类型:发明专利
摘要
本申请公开了一种视觉语言大模型的参数对齐方法、装置及存储介质,涉及人工智能领域。包括:收集包含图像和对应文本描述的多模态数据集;对图像数据和文本数据进行预处理;将预处理多模态数据进行特征提取,生成特征向量;基于Transformer的架构分别构建视觉模型和语言模型;加入多模态对齐模块,将视觉模型和语言模型的参数进行关联;通过采用多模态结合多任务训练方法,将预处理多模态数据输入至视觉和语言模型,并对视觉模型和语言模型进行联合训练;通过相似度算法,计算图像和文本特征向量之间的关联程度;通过自回归算法和三元组损失函数对视觉模型和语言模型进行优化,得到视觉语言大模型,具有参数对齐能力,能够在图像和文本之间建立对应关系。
技术关键词
文本特征向量 图像特征向量 多模态 三元组损失函数 视觉 对齐方法 对齐模块 回归算法 生成特征向量 参数 图像编辑器 跨模态 对齐装置 输入输出单元 数据 模态特征 文本编码器
系统为您推荐了相关专利信息
1
基于静止气象卫星多通道亮温差驱动的时序海雾检测方法
气象卫星遥感数据 海雾检测方法 静止气象卫星 运动特征 多通道
2
基于多模态传感数据的硬压板状态监测系统
状态监测系统 硬压板 非晶硅薄膜太阳能 电源管理单元 多模态
3
一种空间感知观测信息质量评估方法、系统、终端及介质
指数衰减函数 度量 激光雷达点云 卡尔曼滤波跟踪 协方差矩阵
4
一种特种作业车辆安全监控预警方法及系统
特种作业车辆 信息采集模块 影像 构建预测模型 安全监控预警系统
5
一种发泡材料成型用自动生产方法
七轴机器人 自动生产方法 发泡材料 片材 工位
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号