基于多模态大模型的场景数据生成方法、装置及设备

正文

推荐专利

申请号：CN202411574593

申请日期：2024-11-06

公开号：CN119648822A

公开日期：2025-03-18

类型：发明专利

摘要

本申请提出一种基于多模态大模型的场景数据生成方法、装置及设备，所述方法主要通过将包括产品的产品图像和文本描述输入到多模态大模型中，所述文本描述为对目标场景的描述；利用所述多模态大模型，分别对所述产品图像和所述文本描述进行特征学习，基于对所述文本描述的学习结果生成期望的背景图像，基于对所述产品图像的学习结果利用背景图像扩充所述产品图像的背景，生成以所述产品为前景的场景数据图像。通过本申请提出的方法、装置及设备，能够直接将产品图像融入用户所需的场景中，利用所述多模态大模型能够直接生成可以直接使用的或仅需少量调整的场景数据图像，提高了图片生成的质量，减少人工成本。

技术关键词

多模态数据生成方法场景文本分辨率计算机可执行指令数据生成设备数据生成装置图像生成单元可读存储介质训练样本集降噪模块处理器通信存储器

系统为您推荐了相关专利信息

一种基于大模型多模态场馆的身份认证方法及系统

身份认证方法面部局部二值模式指纹特征提取多模态

基于多模态与对比学习的中药多标签毒性预测方法及系统

毒性预测方法融合特征中药多标签多模态

一种基于混合现实的大规模建筑场景模型加载方法

方格卡尔曼滤波器模型加载方法 MR头显顶点

一种基于大语言模型的数据库适配方法

数据库适配方法大语言模型预训练模型文本识别语法结构

自动对准耦合方法及固化设备

对准耦合方法光纤阵列微位移平台对准误差压接机构

基于多模态大模型的场景数据生成方法、装置及设备

站点导航

APP 下载