文本驱动的视觉内容生成模型的训练方法及装置

正文

推荐专利

申请号：CN202510622339

申请日期：2025-05-14

公开号：CN120496096A

公开日期：2025-08-15

类型：发明专利

摘要

本申请实施例公开了一种文本驱动的视觉内容生成模型的训练方法及装置。主要技术方案包括：获取包括多个训练样本的训练数据；利用训练数据训练扩散模型，得到视觉内容生成模型；其中训练包括：对视觉内容样本添加T个时间步的噪声，得到第一噪声视觉内容；将第一噪声视觉内容输入扩散模型，获取扩散模型将文本样本作为条件时针对T个时间步分别预测的第一噪声，以及获取扩散模型在无条件时针对T个时间步分别预测的第二噪声；利用第一损失和第二损失得到损失函数的取值，利用损失函数的取值更新扩散模型的模型参数。本申请能够针对文本描述对象的组合场景，提升视觉内容生成模型的视觉内容与用户输入的文本之间的匹配度。

技术关键词

视觉文本对象噪声样本内容生成装置内容生成方法数据存储程序指令组合场景大语言模型计算机程序产品训练装置处理器可读存储介质存储器参数电子设备

系统为您推荐了相关专利信息

一种质量评价模型的构建方法、遥感图文多模态数据清洗方法和强化学习算法

数据清洗方法强化学习算法多模态大规模遥感数据图文

一种智能中继器的通信信号监测方法及系统

通信信号监测智能中继器滤波器模块序列计算机程序指令

融合神经网络的F5G全光变电站实时监测方法、系统和介质

融合神经网络实时监测方法卷积神经网络参数视频梯度算法

基于脉冲神经网络和斯托克威尔变换的脑电信号分类方法

脉冲神经网络模型分类方法波长分类器神经网络模型训练

一种交流励磁电机的电抗参数鲁棒性优化方法及系统

交流励磁电机电机电抗参数鲁棒性优化方法定子槽口六西格玛设计方法

文本驱动的视觉内容生成模型的训练方法及装置

站点导航

APP 下载