一种基于GCN和智能体工作流的多模态视觉设计方法

正文

推荐专利

申请号：CN202511040920

申请日期：2025-07-28

公开号：CN120997063A

公开日期：2025-11-21

类型：发明专利

摘要

本发明公开了一种基于GCN和智能体工作流的多模态视觉设计方法。包括如下步骤：接收用户输入的图像生成请求信息；特征编码：a.利用语言编码器进行特征提取；b.双模态特征提取机制：输出风格嵌入向量G；（3）图结构建模：a.将视觉生成任务抽象为图结构;b.将向量编码信息输入至GCN中进行特征传播和全局建模；（4）图像初始生成：引导CNN网络生成初始图像；（5）图像细节优化：将初始图像输入至细节增强网络中并输出优化后图像；（6）一致性损失优化：在训练阶段，设置多目标损失函数进行联合训练优化；（7）图像输出：输出最终优化后的图像。优点是：实现图像结构、局部细节与全局语义的一致性，显著提升复杂场景下的生成合理性。

技术关键词

风格语言编码器节点特征图像结构视觉语义主题上采样图像输出模块多尺度感知双模态场景文本前馈神经网络全局平均池化纹理

系统为您推荐了相关专利信息

一种基于边界表示的无监督三维CAD模型检索方法

三维CAD模型检索方法监督学习模型特征提取网络样本节点特征

一种基于用户行为数据的广告图片投放方法

广告图片兴趣风格时间段关键词

一种计算机故障报警方法及系统

计算机故障报警方法时序故障预测模型计算机故障报警系统故障关联分析

一种人工智能数据标注方法

人工智能数据标注方法一致性检测神经网络算法标签

基于SAM2大模型动态分段的3DGS设备单体化方法

单体化方法三维点云数据分段工业设备语义点云

一种基于GCN和智能体工作流的多模态视觉设计方法

站点导航

APP 下载