摘要
一种基于数据价值优化的多模态提示学习系统及方法,属于多模态学习的技术领域。为提升视觉信息的利用效率,本发明包括提取输入图像的特征;构建多模态提示生成模块,生成初始文本提示和初始视觉提示;构建数据价值筛选模块,计算输入图像不同区域的Shapley值,筛选出数据价值最高的图像区域组合,生成引导性视觉信息;构建多模态提示融合模块,得到优化后的完整深层文本提示;构建多模态特征对齐模块,计算图像特征与文本特征的特征相似度矩阵,引导输入图像的图像特征与文本特征在共享嵌入空间中实现特征对齐;构建分类预测模块,依据对齐后的特征相似度矩阵生成类别概率分布,通过比对不同类别的概率实现最终的类别预测,输出分类结果。
技术关键词
代表
多模态特征
文本编码器
学习方法
对齐模块
视觉
图像编码器
嵌入特征
预测类别
图像块
学习系统
可调节温度系数
数据
蒙特卡罗算法
投影变换矩阵