摘要
本公开的实施例提供了视觉内容生成的方法、装置、设备、存储介质和程序产品。该方法包括:响应于获取与视觉内容生成相关的描述信息,基于指定视觉类别确定描述信息中各个文本单元的位置信息,指定视觉类别指示视频类别或图像类别,位置信息包括空间位置信息和时间位置信息中的至少一种。基于描述信息中各个文本单元的文本编码表示和位置信息,利用经训练的内容生成模型,来生成与描述信息相匹配的视觉特征图。基于视觉特征图,利用经训练的解码器模型来生成与指定视觉类别匹配的视觉内容,解码器模型被训练为从图像对应的视觉特征图解码出图像以及从视频对应的视觉特征图解码出视频。由此,可以提高多模态内容生成任务的处理能力。
技术关键词
视觉特征
解码器模型
样本
图像类别
查询特征
图样
文本
视频
计算机可执行指令
处理单元
键特征
上采样
感知特征
语义标签
计算机程序产品
编码器
注意力机制
系统为您推荐了相关专利信息
意图识别模型
脑电信号特征
样本
空间滤波器组
动作融合
特征提取模块
音频信噪比
短时傅里叶变换
输出模块
模型训练模块
液冷电缆
温度预测模型
监测预警方法
工况
状态诊断
生物标志物技术
脊髓性肌萎缩
血清
重症肌无力
神经网络模型