多模态数据集的构建方法、装置及存储介质

正文

推荐专利

多模态数据集的构建方法、装置及存储介质

申请号：CN202410793274

申请日期：2024-06-19

公开号：CN118606712A

公开日期：2024-09-06

类型：发明专利

摘要

本申请提供一种多模态数据集构建方法、装置及存储介质。首先清洗出高质量图片；然后对高质量的图片生成图片的描述；评估生成的描述与图片的相似度，如果相似度较低，重新生成图片的描述，直到生成的描述与图片的相似度达到规定的得分；使用音频模型，把生成的图片描述转换成语音，通过评分模型打分，得到满足条件的音频；得到图‑文‑音三模态高质量数据集。通过本发明的获取数据集的方法，获取了高质量的图文音数据集，可以用来提高模型的泛化能力。

技术关键词

数据集构建方法图片多模态音频非暂态计算机可读存储介质检测工具图文语音处理器大语言模型模块计算机程序产品水印存储器电子设备视觉

系统为您推荐了相关专利信息

语音风格迁移方法、装置、设备及介质

语音风格迁移方法重构输入流融合特征匹配模型参数

一种融合电力数据的企业征信评估方法、系统及设备

企业征信静态特征企业信用数据数据编码器时序

一种用于实验排风设备的AI语音控制装置及控制方法

排风设备触摸显示模块语音控制装置电阻信号传输模块

妇科病房护理任务优先级智能分配调度平台

分配调度平台长短期记忆网络患者健康患者生理数据任务调度策略

图像采集方法、装置和电子设备

电路驱动装置图像采集方法图像采集设备电流光源装置

多模态数据集的构建方法、装置及存储介质

站点导航

APP 下载