一种基于特征校正的图像描述训练方法、装置及存储介质

正文

推荐专利

申请号：CN202510833048

申请日期：2025-06-20

公开号：CN120747708A

公开日期：2025-10-03

类型：发明专利

摘要

本发明涉及一种基于特征校正的图像描述训练方法、装置及存储介质，方法包括：构建图像描述生成的基础框架，其包括视觉编码器、辅助编码器、Q‑Former模块以及语言模型接口；获取用于训练的输入图片，并分别输入视觉编码器和辅助编码器中，通过视觉编码器提取主视觉特征，通过辅助编码器提取与视觉编码器不同视角的辅助视觉特征，将主视觉特征输入Q‑Former模块中；对辅助视觉特征进行筛选后与Q‑Former模块输出特征进行拼接，形成最终的视觉表示，用于作为深度学习模型的输入，从而端到端对模型进行训练，以生成准确的图片描述。与现有技术相比，本发明不仅提升了模型性能，还简化了系统结构，提高了推理效率，为图像描述生成任务提供了一种更加高效、简洁且可扩展的技术路径。

技术关键词

视觉特征辅助编码器输出特征深度学习模型图像校正图片模块表达式可读存储介质训练装置接口处理器视角框架基础存储器计算机参数

系统为您推荐了相关专利信息

一种面向RGB-T人群计数的动态标签翻转后门攻击方法

标签后门补丁样本图像

一种轻量级实时心率监测模型和心率监测方法

运动补偿双分支网络心率监测方法视频多任务损失函数

一种基于变分算式的夜间图像信息增强方法

噪声信息反射率伽马校正累积分布函数数学模型

一种嵌入式边缘计算架构的智能采茶机器人系统

智能采茶机器人 OTSU阈值健康监测模块三维定位导航多模态数据采集

一种基于安全距离检测的无人机挂线方法和相关装置

激光测距数据检测无人机挂线方法距离检测输电线路挂线

一种基于特征校正的图像描述训练方法、装置及存储介质

站点导航

APP 下载