摘要
本公开涉及计算机技术领域,公开了特定场景下图像数据集生成方法、装置、设备及存储介质,该方法包括:将特定场景对应的文字信息输入大语言模型,得到提示词;将提示词输入扩散模型,生成与提示词对应的图像信息;基于图像信息,生成多种视觉标注,其中,视觉标注用于对图像信息添加标签标识;根据图像信息和多种视觉标注,构建特定场景下的图像数据集。本公开使用大语言模型和扩散模型生成特定场景下真实感强的图像信息,降低了采集真实数据的成本和时间,能够有效地生成特定场景下稀缺的图像数据,从而丰富图像数据集的多样性。
技术关键词
图像
视觉
生成方法
大语言模型
文件夹
场景
数据
可读存储介质
指令
计算机程序产品
文本
编码模块
参数
存储器
生成装置
标签
处理器
计算机设备
真实感
系统为您推荐了相关专利信息
智能问答机器人
开发方法
预训练模型
支持语音交互
生成图像信息
自动化装配设备
发动机凸轮轴
协作机器人
送料机
夹爪气缸
冠脉造影
焦点损失函数
CT血管造影
识别方法
计算机存储介质
荧光成像分析方法
三维荧光光谱数据
显微镜系统
十二烯基丁二酸酐
生成对抗网络
图像分割
分析单元
空间位置偏差
数据分析模块
人机交互模块