多模态大模型数据清洗治理方法及系统

AITNT
正文
推荐专利
多模态大模型数据清洗治理方法及系统
申请号:CN202510820032
申请日期:2025-06-19
公开号:CN120336725B
公开日期:2025-09-02
类型:发明专利
摘要
本申请涉及数据清洗技术领域,其具体地公开了一种多模态大模型数据清洗治理方法及系统,其对原始多模态数据集进行基础的格式过滤后,通过单模态质量评估机制量化评估多模态数据集中的图像清晰度和文本流畅性,以筛选出质量合格的图像和文本数据样本。接着,进一步引入语义级对齐评估机制,对数据集中每一组对应的图像样本和图像文本描述进行语义级交互响应分析,以量化评估图像样本与文本描述之间的语义对齐程度,筛选出高度语义对齐的图像‑文本数据对。该方法通过对多模态数据集进行多层次的清洗治理,能够确保多模态训练样本质量达标,并且在跨模态语义层面实现高度对齐,从而提升多模态大模型在跨模态理解与生成任务中的准确性和鲁棒性。
技术关键词
编码向量 多模态 图像视觉特征 文本 视觉特征提取 局部视觉特征 语义特征提取 样本 序列 数据清洗技术 编码模块 矩阵 基础 语义层面 预训练模型
系统为您推荐了相关专利信息
1
一种营销活动指标预测模型建立方法
预测模型建立方法 双向注意力机制 文本特征向量 跨模态 多尺度滑动窗口
2
一种基于多源数据加权特征的个性化图书推荐系统及方法
图书推荐系统 个性化图书推荐方法 生成个性化推荐 矩阵 BERT模型
3
一种基于多视图聚类的检索增强生成方法和系统
特征数据库 图谱 关键字 文本 大语言模型
4
一种基于机器视觉识别的消防安全巡检方法及系统
机器视觉识别 运动矢量场 巡检方法 矢量图 多光谱
5
一种金融产品推荐方法、系统及存储介质
金融产品推荐方法 排序模型 金融产品推荐系统 队列 数据
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号