摘要
本发明公开了一种基于可控背景混合的图像扩增方法及系统,该方法包括:基于视觉语言大模型获取原始图像数据集中每个图像的前景对象及背景信息的描述文本,得到多模态数据集;利用大语言模型根据多模态数据集对前景对象进行分类、对背景信息进行关键词提取,得到每个类别的前景对象对应的背景关键词;对每类前景对象的背景关键词进行均衡性分析,确定背景均衡方案;基于背景均衡方案生成扩增图像,将所述扩增图像添加到所述原始图像数据集中补充每类前景对象缺少的背景信息,得到背景均衡的扩展数据集。本发明能够充分利用背景的上下文信息,通过处理图像背景完成数据扩增,实现数据集的标签零污染,帮助提高模型的泛化能力。
技术关键词
图像扩增方法
原始图像数据
关键词
对象
大语言模型
文本
多模态
图像分割
图片
视觉
扩增系统
可读存储介质
生成方法
模块
计算机
样本
爬虫
词典