摘要
本申请提供一种多模态数据集构建方法、装置及存储介质。首先清洗出高质量图片;然后对高质量的图片生成图片的描述;评估生成的描述与图片的相似度,如果相似度较低,重新生成图片的描述,直到生成的描述与图片的相似度达到规定的得分;使用音频模型,把生成的图片描述转换成语音,通过评分模型打分,得到满足条件的音频;得到图‑文‑音三模态高质量数据集。通过本发明的获取数据集的方法,获取了高质量的图文音数据集,可以用来提高模型的泛化能力。
技术关键词
数据集构建方法
图片
多模态
音频
非暂态计算机可读存储介质
检测工具
图文
语音
处理器
大语言模型
模块
计算机程序产品
水印
存储器
电子设备
视觉
系统为您推荐了相关专利信息
语音风格迁移方法
重构
输入流
融合特征
匹配模型参数
企业征信
静态特征
企业信用数据
数据编码器
时序
排风设备
触摸显示模块
语音控制装置
电阻
信号传输模块
分配调度平台
长短期记忆网络
患者健康
患者生理数据
任务调度策略
电路驱动装置
图像采集方法
图像采集设备
电流
光源装置