摘要
本申请涉及一种基于图片生成文本的方法、图生文模型训练方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。所述方法包括:获取目标图片以及问题;通过图片编码网络对所述目标图片进行编码得到图片编码信息;将所述图片编码信息输入至图文转换网络,得到待处理图片特征;将所述待处理图片特征以及所述问题对应的文本序列输入至大模型中得到与所述问题对应的答案,其中所述大模型的每一层均包括所述图文转换网络,所述图文转换网络用于将所述图片特征逼近所述问题对应的文本空间。采用本方法能够提高处理效率。
技术关键词
图片
图文
文本
模型训练方法
网络
样本
双向注意力
答案
掩膜
计算机程序产品
视觉特征
序列
计算机设备
可读存储介质
处理器
编码模块
存储器
解码器