摘要
本发明是一种基于场景图扩展的连续视觉概念学习方法,属于机器视觉领域。该方法将场景图中丰富的语义信息通过大语言模型引入生成模型,并通过一种全新的注意力机制来引导模型生成过程,实现更高的个性化概念保真度以及文本保真度。本发明通过持续扩展场景图,确保模型在连续个性化生成任务中的高质量图像生成。利用数据集构建一个大型场景图,对训练数据集中的图像文本对进行关系抽取,并将抽取到的关系信息扩展到已有的场景图中,不断增加语义信息。生成阶段,用户输入的提示词首先从扩展后的场景图中检索相关的子图,然后将该子图输入至大语言模型,生成符合需求的场景布局。通过本发明设计的注意力机制,对生成过程进行有效引导,实现与场景布局相对应的图像生成。
技术关键词
概念学习方法
采样模块
场景
变分自动编码器
上采样
注意力机制
文本编码器
三元组
矩阵
文本生成图像
关系
物体
视觉
预训练语言模型
对象
布局
系统为您推荐了相关专利信息
风险控制方法
BIM三维模型
节点
场景特征
因子
配电设备
配电房设备
历史运行数据
三维模型
故障检测模型
音频转码方法
音频转码装置
音频特征
噪音功能
电子设备