摘要
本申请公开了一种图像描述方法及装置,其中,所述方法包括:获取图像和文本指令;将所述图像和所述文本指令输入图像描述模型进行推理,得到所述图像对应的文本描述信息,其中,通过比对所述图像经过所述图像描述模型中视觉编码器输出的视觉编码,和所述图像经过所述图像描述模型中所述视觉编码器、投影层和大语言模型输出的文本描述信息,得到所述视觉编码与所述文本描述信息之间的相似度,基于所述相似度调整所述图像描述模型的参数。
技术关键词
文本编码器
参数
多模态
大语言模型
图像编码器
预训练模型
适配器
指令
数据
词语
语句
模块
系统为您推荐了相关专利信息
预防下肢血栓
智能训练方法
多轴惯性传感器
运动训练
生物反馈传感器
面部运动单元
智能生成方法
表情模型
生成表情动画
矩阵
机器学习模型
预测分析方法
性能预测模型
性能指标数据
元素
时序特征
预测系统
数据分类
空间特征提取
医学影像数据