一种图像文本描述的生成方法、电子设备以及可读存储介质

正文

推荐专利

申请号：CN202511144235

申请日期：2025-08-15

公开号：CN121033607A

公开日期：2025-11-28

类型：发明专利

摘要

本发明提供了一种图像文本描述的生成方法、电子设备以及可读存储介质。本发明通过引入对象感知原型学习模块和全局上下文特征提取模块，有效地平衡了图像中的细粒度信息和全局语义理解。视觉主干网络模块能够提取多尺度、多层次的图像特征，并进行融合，从而增强图像特征的表达能力。对象感知原型学习模块进一步从融合特征中提取出对象原型，确保模型能够精确捕捉图像中的关键对象及其属性，而全局上下文特征提取模块则确保了图像的整体语境得到充分理解。在此基础上，编码解码模块结合全局上下文和对象原型生成文本描述，既避免了传统方法中语义割裂的现象，又有效保留了图像中的细节信息，从而提高了图像描述的准确性和完整性。

技术关键词

融合图像特征原型对象分割掩模生成方法特征提取模块网络模块上下文特征语义解码模块可读存储介质元素文本通道全局平均池化视觉电子设备多层次

一种图像文本描述的生成方法、电子设备以及可读存储介质

站点导航

APP 下载