一种基于知识蒸馏的动态统一序列图像生成方法

正文

推荐专利

申请号：CN202511384220

申请日期：2025-09-26

公开号：CN120876672B

公开日期：2025-12-09

类型：发明专利

摘要

本发明属于图像生成领域，公开一种基于知识蒸馏的动态统一序列图像生成方法，包括以下步骤：输入多个类别的宫格图像和文本信息并分别进行编码处理，获得编码后宫格图像和文本特征；对编码后的宫格图像进行加噪，并与文本特征拼接后输入预训练的自回归扩散模型中；学习不同类别宫格图像的布局特征和帧间连贯性，并设计稀疏掩码策略微调预训练的自回归扩散模型，把多个类别的宫格图像特征蒸馏到一个统一的矩阵中，输出帧间连贯的宫格图像；从帧间连贯的宫格图像中随机选取两帧图像输入图像扩写模型中，对两帧图像进行动态位置编码；解决了现有技术中存在着序列生成灵活性不足，且难以保证逻辑与视觉连贯性的问题。

技术关键词

序列图像生成方法动态位置编码噪声图像真实图像数据矩阵图像解码器表达式蒸馏掩码策略布局特征视觉特征提取文本噪声强度变量注意力机制上下文特征九宫格