摘要
本发明提供了一种图像文本描述的生成方法、电子设备以及可读存储介质。本发明通过引入对象感知原型学习模块和全局上下文特征提取模块,有效地平衡了图像中的细粒度信息和全局语义理解。视觉主干网络模块能够提取多尺度、多层次的图像特征,并进行融合,从而增强图像特征的表达能力。对象感知原型学习模块进一步从融合特征中提取出对象原型,确保模型能够精确捕捉图像中的关键对象及其属性,而全局上下文特征提取模块则确保了图像的整体语境得到充分理解。在此基础上,编码解码模块结合全局上下文和对象原型生成文本描述,既避免了传统方法中语义割裂的现象,又有效保留了图像中的细节信息,从而提高了图像描述的准确性和完整性。
技术关键词
融合图像特征
原型
对象
分割掩模
生成方法
特征提取模块
网络模块
上下文特征
语义
解码模块
可读存储介质
元素
文本
通道
全局平均池化
视觉
电子设备
多层次