摘要
本发明公开了一种基于扩散模型的多风格绘本生成方法,包括:S1:构建数据集;步骤S2:构建绘本生成模型;预处理模块对绘本图像及故事文本编码,获取文本嵌入、角色掩码和角色图像;S3:导入风格参考图像至风格一致性模块,获取风格特征嵌入;S4:导入文本嵌入、角色掩码和角色图像至角色一致性模块,获取角色嵌入和布局嵌入;S5:导入绘本图像、风格特征嵌入、角色嵌入和布局嵌入至Unet模块中进行绘本图像噪声预测,获取预测的绘本图像;S6:构建损失函数。本发明结合了深度学习中的扩散模型与图像风格迁移算法,能够根据输入的参考图像生成具有多种艺术风格的连贯绘本场景,可以广泛应用于动画制作、图像创意设计及数字内容生成等领域。
技术关键词
风格
生成方法
多层感知机
图像分割模型
文本编码器
图像编码器
噪声预测
模块
交叉注意力机制
布局
语义
大语言模型
系统为您推荐了相关专利信息
离子束刻蚀方法
氧气混合比例
残差网络模型
因子
石英晶片
语义分割模型训练
生成方法
深度学习框架
农田
区域高程数据
知识库生成方法
样本
机器学习模型训练
文本
存储器
对象
文本生成方法
文本生成模型
风格
大语言模型