摘要
本发明提供了一种重建引导的多模态大模型训练方法、装置、应用、设备、介质及程序产品。该方法包括:对样本图像进行重建,得到重建图像特征;将针对样本图像的样本视觉特征和针对样本文本的样本文本特征输入多模态大模型,输出预测视觉特征和预测文本特征,其中,样本文本与样本图像关联;基于重建图像特征和预测视觉特征,确定重建引导的视觉损失值;基于预测文本特征和样本文本特征,确定文本损失值;以及基于重建引导的视觉损失值和文本损失值,对多模态大模型进行训练,得到训练好的多模态大模型。
技术关键词
视觉特征
文本
样本
模型训练方法
多模态
随机噪声
模型训练装置
像素点
图像重建
处理器
模块
程序
标签
电子设备
存储器
颜色
介质
系统为您推荐了相关专利信息
多模态数据融合
状态监测数据
智能管理系统
训练集
决策
贝叶斯网络模型
马尔科夫模型
客户
风险评估报告
朴素贝叶斯分类器
同位素示踪法
玻璃纤维滤膜
氯化钙溶液
有机玻璃
泥沙