摘要
本申请公开了一种主题图像生成方法及基于大语言模型的代理框架。方法包括:在大语言模型中,将与主题相关的关键信息扩展为提示信息;在预训练的文本到图像模型中,基于提示信息和关键信息,生成包含三个颜色通道的候选图像;通过注意力机制提取候选图像中主要元素对应的注意力图;计算注意力图在时间步t、注意力层l下的交叉熵;根据交叉熵,对总时间步T、预训练的文本到图像模型的总注意力层L的注意力图进行加权融合;将融合后的注意力图作为指导信息,预测主题图像的掩模,并进行前景分割,分离出带有透明度通道的主题图像。本申请实现熵基加权融合技术在图像生成的应用,能够有效去除不需要的元素,分离出的主题图像具有更高的精度和质量。
技术关键词
图像生成方法
大语言模型
主题
文本
GrabCut算法
透明度
掩模
注意力机制
标记
通道
元素
框架
颜色
过滤模块
采样模块
输入模块
输出模块
系统为您推荐了相关专利信息
树状数据结构
信息检索
图谱
多模态数据融合
节点
测试终端
终端测试方法
数据处理模型
协议
服务器
图像生成器
元素生成方法
编码特征
图像编码
数据