摘要
本发明公开了一种基于GCN和智能体工作流的多模态视觉设计方法。包括如下步骤:接收用户输入的图像生成请求信息;特征编码:a.利用语言编码器进行特征提取;b.双模态特征提取机制:输出风格嵌入向量G;(3)图结构建模:a.将视觉生成任务抽象为图结构;b.将向量编码信息输入至GCN中进行特征传播和全局建模;(4)图像初始生成:引导CNN网络生成初始图像;(5)图像细节优化:将初始图像输入至细节增强网络中并输出优化后图像;(6)一致性损失优化:在训练阶段,设置多目标损失函数进行联合训练优化;(7)图像输出:输出最终优化后的图像。优点是:实现图像结构、局部细节与全局语义的一致性,显著提升复杂场景下的生成合理性。
技术关键词
风格
语言编码器
节点特征
图像结构
视觉
语义
主题
上采样
图像输出模块
多尺度感知
双模态
场景
文本
前馈神经网络
全局平均池化
纹理
系统为您推荐了相关专利信息
三维CAD模型检索方法
监督学习模型
特征提取网络
样本
节点特征
计算机故障报警方法
时序
故障预测模型
计算机故障报警系统
故障关联分析
人工智能数据
标注方法
一致性检测
神经网络算法
标签
单体化方法
三维点云数据
分段
工业设备
语义点云