摘要
本发明属于图像生成领域,公开一种基于知识蒸馏的动态统一序列图像生成方法,包括以下步骤:输入多个类别的宫格图像和文本信息并分别进行编码处理,获得编码后宫格图像和文本特征;对编码后的宫格图像进行加噪,并与文本特征拼接后输入预训练的自回归扩散模型中;学习不同类别宫格图像的布局特征和帧间连贯性,并设计稀疏掩码策略微调预训练的自回归扩散模型,把多个类别的宫格图像特征蒸馏到一个统一的矩阵中,输出帧间连贯的宫格图像;从帧间连贯的宫格图像中随机选取两帧图像输入图像扩写模型中,对两帧图像进行动态位置编码;解决了现有技术中存在着序列生成灵活性不足,且难以保证逻辑与视觉连贯性的问题。
技术关键词
序列图像生成方法
动态位置编码
噪声图像
真实图像数据
矩阵
图像解码器
表达式
蒸馏
掩码策略
布局特征
视觉特征提取
文本
噪声强度
变量
注意力机制
上下文特征
九宫格