一种图像文本描述的生成方法、电子设备以及可读存储介质

AITNT
正文
推荐专利
一种图像文本描述的生成方法、电子设备以及可读存储介质
申请号:CN202511144235
申请日期:2025-08-15
公开号:CN121033607A
公开日期:2025-11-28
类型:发明专利
摘要
本发明提供了一种图像文本描述的生成方法、电子设备以及可读存储介质。本发明通过引入对象感知原型学习模块和全局上下文特征提取模块,有效地平衡了图像中的细粒度信息和全局语义理解。视觉主干网络模块能够提取多尺度、多层次的图像特征,并进行融合,从而增强图像特征的表达能力。对象感知原型学习模块进一步从融合特征中提取出对象原型,确保模型能够精确捕捉图像中的关键对象及其属性,而全局上下文特征提取模块则确保了图像的整体语境得到充分理解。在此基础上,编码解码模块结合全局上下文和对象原型生成文本描述,既避免了传统方法中语义割裂的现象,又有效保留了图像中的细节信息,从而提高了图像描述的准确性和完整性。
技术关键词
融合图像特征 原型 对象 分割掩模 生成方法 特征提取模块 网络模块 上下文特征 语义 解码模块 可读存储介质 元素 文本 通道 全局平均池化 视觉 电子设备 多层次
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号