摘要
本公开关于一种图像描述文本的处理方法及装置、电子设备、存储介质及计算机程序产品。该处理方法包括:对原始图像的初始描述文本进行分词处理,得到初始描述文本的分词结果;将分词结果输入文本编码器,得到离散向量和连续向量;对连续向量进行预定步数的加噪和去噪处理,其中,在预定步数中的每一步,利用当前步的预测噪声和当前步加入的随机噪声更新当前步的离散向量,并将更新后的离散向量作为下一步的离散向量,将下一步的离散向量对应的连续向量作为下一步的连续向量;响应于预定步数的加噪和去噪处理完成,基于每一步更新后的离散向量,确定原始图像的最终描述文本。
技术关键词
文本编码器
随机噪声
图像
分词
计算机程序产品
中间层
噪声预测
处理器
计算机可执行指令
电子设备
可读存储介质
数据
语义