摘要
本公开提出一种视觉问答模型训练、应用方法、装置及设备,其中视觉问答模型训练方法包括:基于第一输入图像和第一输入图像的第一视觉提示指令,利用扩散模型,确定第一输出图像;基于第一输入图像和第一输出图像,确定扩散模型的指令学习目标;基于第一输入图像、第一输出图像、第一视觉提示指令和指令学习目标,训练扩散模型,以获取预训练扩散模型。本公开的方法,以指令学习目标作为扩散模型的学习导向,使扩散模型通过训练能够理解第一视觉提示指令,从而令预训练模型可以根据第一视觉提示指令生成符合问题描述的输出图像,避免了在扩散模型训练中对问题文本的分析,提高了扩散模型的训练效率。
技术关键词
图像编码
视觉问答模型
指令
文本
噪声
视觉特征
参数
编辑
处理单元
计算机程序产品
处理器
训练装置
可读存储介质
电子设备
存储器
系统为您推荐了相关专利信息
误差模型
亮度
标定方法
计算机程序指令
测距方法