摘要
本申请涉及大模型调节技术领域,其公开了一种基于多模态知识驱动的绘图大模型调节方法及系统,其首先获取由用户输入的文本提示,并对其进行深度解析,提取出用户意图的结构化表示。随后,以此结构化意图为基础,主动检索并整合外部的多模态知识,从而为生成过程引入更丰富、更精确的语义信息和事实依据。然后,使用知识‑注意力翻译模块能够将这些丰富的多模态知识转化为精细化的注意力调制参数。这些参数将直接、动态地影响绘图大模型内部注意力机制的工作方式,实现知识驱动的细粒度特征生成控制。这样,能够更准确地理解复杂的用户意图,从而生成与外部知识高度一致、细节更精准的图像,大幅提升生成图像的质量和可控性。
技术关键词
多模态
意图
文本编码器
参数
Softmax函数
语义
细粒度特征
重构
网络
矩阵
注意力机制
解码模块
调节系统
输出特征
图像
噪声
系统为您推荐了相关专利信息
炼铁工艺
复合脱硫剂
半干法循环流化床
脱硫系统
烟气流量
Kalman滤波器
空间站
参数估计模型
原子钟
噪声相位