摘要
本申请实施例公开了一种文本驱动的视觉内容生成模型的训练方法及装置。主要技术方案包括:获取包括多个训练样本的训练数据;利用训练数据训练扩散模型,得到视觉内容生成模型;其中训练包括:对视觉内容样本添加T个时间步的噪声,得到第一噪声视觉内容;将第一噪声视觉内容输入扩散模型,获取扩散模型将文本样本作为条件时针对T个时间步分别预测的第一噪声,以及获取扩散模型在无条件时针对T个时间步分别预测的第二噪声;利用第一损失和第二损失得到损失函数的取值,利用损失函数的取值更新扩散模型的模型参数。本申请能够针对文本描述对象的组合场景,提升视觉内容生成模型的视觉内容与用户输入的文本之间的匹配度。
技术关键词
视觉
文本
对象
噪声
样本
内容生成装置
内容生成方法
数据
存储程序指令
组合场景
大语言模型
计算机程序产品
训练装置
处理器
可读存储介质
存储器
参数
电子设备
系统为您推荐了相关专利信息
数据清洗方法
强化学习算法
多模态
大规模遥感数据
图文
通信信号监测
智能中继器
滤波器模块
序列
计算机程序指令
融合神经网络
实时监测方法
卷积神经网络参数
视频
梯度算法
脉冲神经网络模型
分类方法
波长
分类器
神经网络模型训练
交流励磁电机
电机电抗参数
鲁棒性优化方法
定子槽口
六西格玛设计方法