基于多模态大模型的多模态预训练数据过滤方法

正文

推荐专利

申请号：CN202411437441

申请日期：2024-10-15

公开号：CN119415827A

公开日期：2025-02-11

类型：发明专利

摘要

本发明公开了一种基于多模态大模型的多模态预训练数据过滤方法，包括如下步骤：步骤一，获取训练模型的多模态预训练数据，并对多模态预训练数据进行分类；步骤二，使用标准视觉指令调整在外部高质量多模态数据上训练参考模型；步骤三，根据参考模型RM得出的对数概率计算所有文本标记的参考损失；步骤四，通过步骤三计算的参考损失对步骤一获取的多模态预训练数据进行排序和筛选数据，获得最终高质量多模态预训练数据。本发明的基于多模态大模型的多模态预训练数据过滤方法，会仔细检查数据集，以找出具有最高代表性和训练价值的数据样本。

技术关键词

数据过滤方法多模态文本标记图像视觉指令焦点实体样本颜色序列

系统为您推荐了相关专利信息

一种基于图像处理的机器视觉检测方法及系统

关键特征值机器视觉检测方法子模块物体扫描视觉检测模块

一种基板耐压测试装置和测试系统

耐压测试装置能量系统仿真模型电场仿真数据

引导式量子视觉图像识别方法及装置

视觉图像识别方法注意力机制互补机制视觉图像识别装置计算机可读指令

一种基于无人机场的公路施工安全巡检方法及系统

巡检方法无人机巡检路径图像处理模型公路实时数据

一种支持北斗与AI的智能物联网应急通信方法及系统

事故现场物联网应急策略通信链路状态地理位置信息

基于多模态大模型的多模态预训练数据过滤方法

站点导航

APP 下载