多模态大模型数据清洗治理方法及系统

正文

推荐专利

多模态大模型数据清洗治理方法及系统

申请号：CN202510820032

申请日期：2025-06-19

公开号：CN120336725B

公开日期：2025-09-02

类型：发明专利

摘要

本申请涉及数据清洗技术领域，其具体地公开了一种多模态大模型数据清洗治理方法及系统，其对原始多模态数据集进行基础的格式过滤后，通过单模态质量评估机制量化评估多模态数据集中的图像清晰度和文本流畅性，以筛选出质量合格的图像和文本数据样本。接着，进一步引入语义级对齐评估机制，对数据集中每一组对应的图像样本和图像文本描述进行语义级交互响应分析，以量化评估图像样本与文本描述之间的语义对齐程度，筛选出高度语义对齐的图像‑文本数据对。该方法通过对多模态数据集进行多层次的清洗治理，能够确保多模态训练样本质量达标，并且在跨模态语义层面实现高度对齐，从而提升多模态大模型在跨模态理解与生成任务中的准确性和鲁棒性。

技术关键词

编码向量多模态图像视觉特征文本视觉特征提取局部视觉特征语义特征提取样本序列数据清洗技术编码模块矩阵基础语义层面预训练模型

系统为您推荐了相关专利信息

一种营销活动指标预测模型建立方法

预测模型建立方法双向注意力机制文本特征向量跨模态多尺度滑动窗口

一种基于多源数据加权特征的个性化图书推荐系统及方法

图书推荐系统个性化图书推荐方法生成个性化推荐矩阵 BERT模型

一种基于多视图聚类的检索增强生成方法和系统

特征数据库图谱关键字文本大语言模型

一种基于机器视觉识别的消防安全巡检方法及系统

机器视觉识别运动矢量场巡检方法矢量图多光谱

一种金融产品推荐方法、系统及存储介质

金融产品推荐方法排序模型金融产品推荐系统队列数据

多模态大模型数据清洗治理方法及系统

站点导航

APP 下载