摘要
本申请实施例公开了信息处理装置以及模型训练、图像编辑方法、电子设备,所述装置包括AI模型,所述AI模型以预训练的AI语言模型作为骨干网络;视觉编码模块用于对输入的视觉内容进行视觉编码,得到视觉特征向量;适配模块用于将视觉特征向量进行与文本特征向量的维度对齐处理;AI语言模型用于根据所述文本特征向量和/或维度对齐处理后的视觉特征向量进行处理,输出文本特征向量和/或视觉特征向量;所述视觉解码模块用于根据所述AI语言模型输出的文本特征向量和/或视觉特征向量进行视觉内容的生成。通过本申请实施例,能够通过同一个AI模型完成多模态内容理解、基于文本生成图像、图像编辑等多种不同的复杂任务。
技术关键词
文本特征向量
解码模块
文本生成图像
视觉
图像编辑方法
信息处理装置
多模态
编码模块
计算机可执行指令
人工智能AI模型
数据
阶段
理解自然语言
拼接模块
生成自然语言
电子设备
系统为您推荐了相关专利信息
相位特征
融合纹理特征
计算机视觉
通道
可见光图像
加权融合算法
飞行控制模块
传感器噪声
重构模块
视觉
穴位名称
识别标记
图像跟踪算法
深度神经网络模型
视觉惯性里程计
图像处理系统
自动标记
图像处理方法
视频流
对象跟踪