摘要
本发明公开一种基于可组合文本提示框架的开放域图像识别方法,包括:步骤1,对图像x进行预处理并token化,采用clip视觉模型获取token化特征Fv;步骤2,初始化任务相关文本提示ptt和视觉相关文本提示pvt;步骤3,pvt利用跨模态注意力机制学习融合视觉后的提示步骤4,ptt和采用自注意力机制融合学习组合提示步骤5,采用clip文本模型获取特征,并计算损失优化提示和提示组合模块,所述方法分别学习视觉相关提示和视觉无关提示,视觉相关提示利用跨模态注意来捕捉视觉信息,视觉无关提示通过自注意力与视觉相关提示相结合,实现相互优化。
技术关键词
图像识别方法
文本
注意力机制
融合视觉
跨模态
框架
组合模块
图像特征向量
前馈神经网络
视觉特征
蒸馏
动态
参数
尺寸
系统为您推荐了相关专利信息
轨迹生成方法
意图
序列
速度预测模型
轨迹预测模型
负荷预测模型
负荷预测方法
多头注意力机制
评估预测模型
居住建筑
交互内容
监测机器人
交互历史
自然语言
情感分析模型
变量
多尺度
多层前馈神经网络
基因
非暂态计算机可读存储介质