摘要
本发明涉及一种基于特征校正的图像描述训练方法、装置及存储介质,方法包括:构建图像描述生成的基础框架,其包括视觉编码器、辅助编码器、Q‑Former模块以及语言模型接口;获取用于训练的输入图片,并分别输入视觉编码器和辅助编码器中,通过视觉编码器提取主视觉特征,通过辅助编码器提取与视觉编码器不同视角的辅助视觉特征,将主视觉特征输入Q‑Former模块中;对辅助视觉特征进行筛选后与Q‑Former模块输出特征进行拼接,形成最终的视觉表示,用于作为深度学习模型的输入,从而端到端对模型进行训练,以生成准确的图片描述。与现有技术相比,本发明不仅提升了模型性能,还简化了系统结构,提高了推理效率,为图像描述生成任务提供了一种更加高效、简洁且可扩展的技术路径。
技术关键词
视觉特征
辅助编码器
输出特征
深度学习模型
图像
校正
图片
模块
表达式
可读存储介质
训练装置
接口
处理器
视角
框架
基础
存储器
计算机
参数
系统为您推荐了相关专利信息
运动补偿
双分支网络
心率监测方法
视频
多任务损失函数
噪声信息
反射率
伽马校正
累积分布函数
数学模型
智能采茶机器人
OTSU阈值
健康监测模块
三维定位导航
多模态数据采集
激光测距数据
检测无人机
挂线方法
距离检测
输电线路挂线