摘要
本申请公开一种数据生成方法、装置及电子设备,属于人工智能技术领域,该方法包括:通过第一大语言模型,对第一语料集的原始文本语料进行扩充处理,得到第二语料集,其中,所述第一语料集包含至少两条原始文本语料,所述第二语料集包含扩充处理得到的扩充文本语料和每条扩充文本语料对应的原始文本语料;通过文生图模型,生成与所述第二语料集中每条文本语料相关的描述图像;对每张描述图像进行数据增强处理,得到每张描述图像的增强图像;其中,一张增强图像和一张增强图像对应的所述第二语料集中的扩充文本语料构成一个语料图文对。
技术关键词
大语言模型
数据生成方法
图文
超文本标记语言
随机噪声
光学字符识别
坐标
图像匹配
数据生成装置
模块
语义
电子设备
多模态
人工智能技术
场景
亮点
系统为您推荐了相关专利信息
大语言模型
项目全生命周期
一体化模块
风险
估计概率密度函数
大语言模型
训练样本数据
数据去重方法
分发策略
局部敏感哈希