基于可组合文本提示框架的开放域图像识别方法

正文

推荐专利

申请号：CN202411015053

申请日期：2024-07-26

公开号：CN119046722A

公开日期：2024-11-29

类型：发明专利

摘要

本发明公开一种基于可组合文本提示框架的开放域图像识别方法，包括：步骤1，对图像x进行预处理并token化，采用clip视觉模型获取token化特征Fv；步骤2，初始化任务相关文本提示ptt和视觉相关文本提示pvt；步骤3，pvt利用跨模态注意力机制学习融合视觉后的提示步骤4，ptt和采用自注意力机制融合学习组合提示步骤5，采用clip文本模型获取特征，并计算损失优化提示和提示组合模块，所述方法分别学习视觉相关提示和视觉无关提示，视觉相关提示利用跨模态注意来捕捉视觉信息，视觉无关提示通过自注意力与视觉相关提示相结合，实现相互优化。

技术关键词

图像识别方法文本注意力机制融合视觉跨模态框架组合模块图像特征向量前馈神经网络视觉特征蒸馏动态参数尺寸

系统为您推荐了相关专利信息

一种自动驾驶车辆的轨迹生成方法、系统及存储介质

轨迹生成方法意图序列速度预测模型轨迹预测模型

一种基于CNN-LSTM-MHA的供暖负荷预测方法

负荷预测模型负荷预测方法多头注意力机制评估预测模型居住建筑

一种利用解释性交互缓解机器人会话失败的方法

交互内容监测机器人交互历史自然语言情感分析模型

一种基于集体行为建模的多尺度因果发现方法及系统

变量多尺度多层前馈神经网络基因非暂态计算机可读存储介质

视频处理方法、装置、电子设备、存储介质和程序产品

文本语音视频音频机器学习模型

基于可组合文本提示框架的开放域图像识别方法

站点导航

APP 下载