视觉内容生成的方法、装置、设备、存储介质和程序产品

正文

推荐专利

申请号：CN202411699139

申请日期：2024-11-25

公开号：CN119583912A

公开日期：2025-03-07

类型：发明专利

摘要

本公开的实施例提供了视觉内容生成的方法、装置、设备、存储介质和程序产品。该方法包括：响应于获取与视觉内容生成相关的描述信息，基于指定视觉类别确定描述信息中各个文本单元的位置信息，指定视觉类别指示视频类别或图像类别，位置信息包括空间位置信息和时间位置信息中的至少一种。基于描述信息中各个文本单元的文本编码表示和位置信息，利用经训练的内容生成模型，来生成与描述信息相匹配的视觉特征图。基于视觉特征图，利用经训练的解码器模型来生成与指定视觉类别匹配的视觉内容，解码器模型被训练为从图像对应的视觉特征图解码出图像以及从视频对应的视觉特征图解码出视频。由此，可以提高多模态内容生成任务的处理能力。

技术关键词

视觉特征解码器模型样本图像类别查询特征图样文本视频计算机可执行指令处理单元键特征上采样感知特征语义标签计算机程序产品编码器注意力机制

系统为您推荐了相关专利信息

脑电动作融合交互方法和系统

意图识别模型脑电信号特征样本空间滤波器组动作融合

一种基于深度学习的音频内容安全检测系统

特征提取模块音频信噪比短时傅里叶变换输出模块模型训练模块

一种液冷电缆的供电安全状态监测预警方法及系统

液冷电缆温度预测模型监测预警方法工况状态诊断

血清标志物在构建肌萎缩侧索硬化诊断模型中的应用

生物标志物技术脊髓性肌萎缩血清重症肌无力神经网络模型

基于图像识别的肿瘤蛋白定量评估方法及系统

定量评估方法全景数字图像像素图像块肿瘤

视觉内容生成的方法、装置、设备、存储介质和程序产品

站点导航

APP 下载