文本驱动的视觉内容生成模型的训练方法及装置

AITNT
正文
推荐专利
文本驱动的视觉内容生成模型的训练方法及装置
申请号:CN202510622339
申请日期:2025-05-14
公开号:CN120496096A
公开日期:2025-08-15
类型:发明专利
摘要
本申请实施例公开了一种文本驱动的视觉内容生成模型的训练方法及装置。主要技术方案包括:获取包括多个训练样本的训练数据;利用训练数据训练扩散模型,得到视觉内容生成模型;其中训练包括:对视觉内容样本添加T个时间步的噪声,得到第一噪声视觉内容;将第一噪声视觉内容输入扩散模型,获取扩散模型将文本样本作为条件时针对T个时间步分别预测的第一噪声,以及获取扩散模型在无条件时针对T个时间步分别预测的第二噪声;利用第一损失和第二损失得到损失函数的取值,利用损失函数的取值更新扩散模型的模型参数。本申请能够针对文本描述对象的组合场景,提升视觉内容生成模型的视觉内容与用户输入的文本之间的匹配度。
技术关键词
视觉 文本 对象 噪声 样本 内容生成装置 内容生成方法 数据 存储程序指令 组合场景 大语言模型 计算机程序产品 训练装置 处理器 可读存储介质 存储器 参数 电子设备
系统为您推荐了相关专利信息
1
一种质量评价模型的构建方法、遥感图文多模态数据清洗方法和强化学习算法
数据清洗方法 强化学习算法 多模态 大规模遥感数据 图文
2
一种智能中继器的通信信号监测方法及系统
通信信号监测 智能中继器 滤波器模块 序列 计算机程序指令
3
融合神经网络的F5G全光变电站实时监测方法、系统和介质
融合神经网络 实时监测方法 卷积神经网络参数 视频 梯度算法
4
基于脉冲神经网络和斯托克威尔变换的脑电信号分类方法
脉冲神经网络模型 分类方法 波长 分类器 神经网络模型训练
5
一种交流励磁电机的电抗参数鲁棒性优化方法及系统
交流励磁电机 电机电抗参数 鲁棒性优化方法 定子槽口 六西格玛设计方法
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号