摘要
本申请提出一种基于多模态大模型的场景数据生成方法、装置及设备,所述方法主要通过将包括产品的产品图像和文本描述输入到多模态大模型中,所述文本描述为对目标场景的描述;利用所述多模态大模型,分别对所述产品图像和所述文本描述进行特征学习,基于对所述文本描述的学习结果生成期望的背景图像,基于对所述产品图像的学习结果利用背景图像扩充所述产品图像的背景,生成以所述产品为前景的场景数据图像。通过本申请提出的方法、装置及设备,能够直接将产品图像融入用户所需的场景中,利用所述多模态大模型能够直接生成可以直接使用的或仅需少量调整的场景数据图像,提高了图片生成的质量,减少人工成本。
技术关键词
多模态
数据生成方法
场景
文本
分辨率
计算机可执行指令
数据生成设备
数据生成装置
图像生成单元
可读存储介质
训练样本集
降噪模块
处理器通信
存储器
系统为您推荐了相关专利信息
身份认证方法
面部
局部二值模式
指纹特征提取
多模态
数据库适配方法
大语言模型
预训练模型
文本识别
语法结构
对准耦合方法
光纤阵列
微位移平台
对准误差
压接机构