视觉内容生成的方法、装置、设备、存储介质和程序产品

AITNT
正文
推荐专利
视觉内容生成的方法、装置、设备、存储介质和程序产品
申请号:CN202411699139
申请日期:2024-11-25
公开号:CN119583912A
公开日期:2025-03-07
类型:发明专利
摘要
本公开的实施例提供了视觉内容生成的方法、装置、设备、存储介质和程序产品。该方法包括:响应于获取与视觉内容生成相关的描述信息,基于指定视觉类别确定描述信息中各个文本单元的位置信息,指定视觉类别指示视频类别或图像类别,位置信息包括空间位置信息和时间位置信息中的至少一种。基于描述信息中各个文本单元的文本编码表示和位置信息,利用经训练的内容生成模型,来生成与描述信息相匹配的视觉特征图。基于视觉特征图,利用经训练的解码器模型来生成与指定视觉类别匹配的视觉内容,解码器模型被训练为从图像对应的视觉特征图解码出图像以及从视频对应的视觉特征图解码出视频。由此,可以提高多模态内容生成任务的处理能力。
技术关键词
视觉特征 解码器模型 样本 图像类别 查询特征 图样 文本 视频 计算机可执行指令 处理单元 键特征 上采样 感知特征 语义标签 计算机程序产品 编码器 注意力机制
系统为您推荐了相关专利信息
1
脑电动作融合交互方法和系统
意图识别模型 脑电信号特征 样本 空间滤波器组 动作融合
2
一种基于深度学习的音频内容安全检测系统
特征提取模块 音频信噪比 短时傅里叶变换 输出模块 模型训练模块
3
一种液冷电缆的供电安全状态监测预警方法及系统
液冷电缆 温度预测模型 监测预警方法 工况 状态诊断
4
血清标志物在构建肌萎缩侧索硬化诊断模型中的应用
生物标志物技术 脊髓性肌萎缩 血清 重症肌无力 神经网络模型
5
基于图像识别的肿瘤蛋白定量评估方法及系统
定量评估方法 全景数字图像 像素 图像块 肿瘤
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号