摘要
本公开实施例公开了一种内容生成方法、装置、电子设备及存储介质,通过获取查询图像和查询文本,对查询文本进行编码得到第一文本特征,在对查询文本进行编码的过程中,对前馈网络的输出特征进行多种粒度的池化得到多种池化特征,将多种池化特征融合得到融合池化特征,基于融合池化特征与输出特征之和得到第一文本特征,对查询图像进行编码得到视觉特征,将视觉特征与第一文本特征进行融合得到查询特征,根据查询特征检索出参考文本,调用视觉大语言模型基于参考文本、查询图像以及查询文本进行内容生成,得到目标内容,能够提升内容生成的准确性。
技术关键词
池化特征
内容生成方法
视觉特征
输出特征
文本编码器
查询特征
大语言模型
图像
样本
标签文本
内容生成装置
编码模块
网络
电子设备
对象检测
计算机程序产品
处理器
系统为您推荐了相关专利信息
预测模型生成方法
基因调控网络
基因表达特征
矩阵编码器
序列
定位方法
双目摄像机
坐标
代数重建方法
资源受限设备
识别方法
终端设备
特征提取网络
多模态数据采集
分支
检测模型构建方法
训练样本集
算法模型
视觉
卷积滤波器