视觉问答模型训练、应用方法、装置及设备

AITNT
正文
推荐专利
视觉问答模型训练、应用方法、装置及设备
申请号:CN202510332093
申请日期:2025-03-20
公开号:CN119848221B
公开日期:2025-06-20
类型:发明专利
摘要
本公开提出一种视觉问答模型训练、应用方法、装置及设备,其中视觉问答模型训练方法包括:基于第一输入图像和第一输入图像的第一视觉提示指令,利用扩散模型,确定第一输出图像;基于第一输入图像和第一输出图像,确定扩散模型的指令学习目标;基于第一输入图像、第一输出图像、第一视觉提示指令和指令学习目标,训练扩散模型,以获取预训练扩散模型。本公开的方法,以指令学习目标作为扩散模型的学习导向,使扩散模型通过训练能够理解第一视觉提示指令,从而令预训练模型可以根据第一视觉提示指令生成符合问题描述的输出图像,避免了在扩散模型训练中对问题文本的分析,提高了扩散模型的训练效率。
技术关键词
图像编码 视觉问答模型 指令 文本 噪声 视觉特征 参数 编辑 处理单元 计算机程序产品 处理器 训练装置 可读存储介质 电子设备 存储器
系统为您推荐了相关专利信息
1
一种图像重定向方法、装置、电子设备及介质
图像重定向方法 网格 样本 运动 特征提取模型
2
一种距离误差模型的标定方法、测距方法及相关装置
误差模型 亮度 标定方法 计算机程序指令 测距方法
3
一种网络资源归属确定方法、装置、电子设备及存储介质
画像 网络流量数据 对象 可读存储介质 电子设备
4
基于知识图谱的仿真软件模型推荐方法、系统及介质
模型推荐方法 仿真软件 场景工程 节点 物体
5
一种测试方法、装置、存储介质及电子设备
损耗 参数 链路 测试板 温度传感器
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号