多模态数据集的构建方法、装置及存储介质

AITNT
正文
推荐专利
多模态数据集的构建方法、装置及存储介质
申请号:CN202410793274
申请日期:2024-06-19
公开号:CN118606712A
公开日期:2024-09-06
类型:发明专利
摘要
本申请提供一种多模态数据集构建方法、装置及存储介质。首先清洗出高质量图片;然后对高质量的图片生成图片的描述;评估生成的描述与图片的相似度,如果相似度较低,重新生成图片的描述,直到生成的描述与图片的相似度达到规定的得分;使用音频模型,把生成的图片描述转换成语音,通过评分模型打分,得到满足条件的音频;得到图‑文‑音三模态高质量数据集。通过本发明的获取数据集的方法,获取了高质量的图文音数据集,可以用来提高模型的泛化能力。
技术关键词
数据集构建方法 图片 多模态 音频 非暂态计算机可读存储介质 检测工具 图文 语音 处理器 大语言模型 模块 计算机程序产品 水印 存储器 电子设备 视觉
系统为您推荐了相关专利信息
1
语音风格迁移方法、装置、设备及介质
语音风格迁移方法 重构 输入流 融合特征 匹配模型参数
2
一种融合电力数据的企业征信评估方法、系统及设备
企业征信 静态特征 企业信用数据 数据编码器 时序
3
一种用于实验排风设备的AI语音控制装置及控制方法
排风设备 触摸显示模块 语音控制装置 电阻 信号传输模块
4
妇科病房护理任务优先级智能分配调度平台
分配调度平台 长短期记忆网络 患者健康 患者生理数据 任务调度策略
5
图像采集方法、装置和电子设备
电路驱动装置 图像采集方法 图像采集设备 电流 光源装置
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号