基于可组合文本提示框架的开放域图像识别方法

AITNT
正文
推荐专利
基于可组合文本提示框架的开放域图像识别方法
申请号:CN202411015053
申请日期:2024-07-26
公开号:CN119046722A
公开日期:2024-11-29
类型:发明专利
摘要
本发明公开一种基于可组合文本提示框架的开放域图像识别方法,包括:步骤1,对图像x进行预处理并token化,采用clip视觉模型获取token化特征Fv;步骤2,初始化任务相关文本提示ptt和视觉相关文本提示pvt;步骤3,pvt利用跨模态注意力机制学习融合视觉后的提示步骤4,ptt和采用自注意力机制融合学习组合提示步骤5,采用clip文本模型获取特征,并计算损失优化提示和提示组合模块,所述方法分别学习视觉相关提示和视觉无关提示,视觉相关提示利用跨模态注意来捕捉视觉信息,视觉无关提示通过自注意力与视觉相关提示相结合,实现相互优化。
技术关键词
图像识别方法 文本 注意力机制 融合视觉 跨模态 框架 组合模块 图像特征向量 前馈神经网络 视觉特征 蒸馏 动态 参数 尺寸
系统为您推荐了相关专利信息
1
一种自动驾驶车辆的轨迹生成方法、系统及存储介质
轨迹生成方法 意图 序列 速度预测模型 轨迹预测模型
2
一种基于CNN-LSTM-MHA的供暖负荷预测方法
负荷预测模型 负荷预测方法 多头注意力机制 评估预测模型 居住建筑
3
一种利用解释性交互缓解机器人会话失败的方法
交互内容 监测机器人 交互历史 自然语言 情感分析模型
4
一种基于集体行为建模的多尺度因果发现方法及系统
变量 多尺度 多层前馈神经网络 基因 非暂态计算机可读存储介质
5
视频处理方法、装置、电子设备、存储介质和程序产品
文本 语音 视频 音频 机器学习模型
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号