摘要
本发明公开了一种基于扩散模型的多风格绘本生成方法,包括:S1:构建数据集;步骤S2:构建绘本生成模型;预处理模块对绘本图像及故事文本编码,获取文本嵌入、角色掩码和角色图像;S3:导入风格参考图像至风格一致性模块,获取风格特征嵌入;S4:导入文本嵌入、角色掩码和角色图像至角色一致性模块,获取角色嵌入和布局嵌入;S5:导入绘本图像、风格特征嵌入、角色嵌入和布局嵌入至Unet模块中进行绘本图像噪声预测,获取预测的绘本图像;S6:构建损失函数。本发明结合了深度学习中的扩散模型与图像风格迁移算法,能够根据输入的参考图像生成具有多种艺术风格的连贯绘本场景,可以广泛应用于动画制作、图像创意设计及数字内容生成等领域。
技术关键词
风格
生成方法
多层感知机
图像分割模型
文本编码器
图像编码器
噪声预测
模块
交叉注意力机制
布局
语义
大语言模型
系统为您推荐了相关专利信息
语音生成方法
文本
语义
关键字
声音信号处理技术
三维生成方法
视角
模型训练方法
二维图像特征
符号
图像分割网络
上采样
全景图像处理方法
卷积模块
多层感知机层