摘要
本申请提供了一种图像描述方法、装置、电子设备及存储介质,涉及图像处理领域。其中,该方法包括:获取目标图像和目标图像中的至少一个目标子图像;目标图像与各目标子图像携带相同的文本提示;文本提示是对目标图像的内容进行提示;对目标图像和各目标子图像进行特征提取和特征融合,得到目标特征;在文本提示的引导下,利用扰动注意力优化机制,对目标特征进行迭代处理,生成多个令牌信息;根据各令牌信息进行文本生成,输出文本描述信息;文本描述信息用于描述目标图像的内容。本申请解决了相关技术中图像描述的准确率不高的问题。
技术关键词
令牌
注意力
文本
键值
电子设备
图像获取模块
大语言模型
机制
图像分割
处理器
图像处理
蒸馏
存储器
分辨率
密度
解码
系统为您推荐了相关专利信息
分布特征
数据分布
分类方法
样本
支持向量机模型
中文文本分类方法
融合标签
拼音
标签编码器
特征提取网络
深度学习分类模型
分类方法
注意力机制
拉曼光谱数据
时序特征