基于多模态大模型的多模态预训练数据过滤方法

AITNT
正文
推荐专利
基于多模态大模型的多模态预训练数据过滤方法
申请号:CN202411437441
申请日期:2024-10-15
公开号:CN119415827A
公开日期:2025-02-11
类型:发明专利
摘要
本发明公开了一种基于多模态大模型的多模态预训练数据过滤方法,包括如下步骤:步骤一,获取训练模型的多模态预训练数据,并对多模态预训练数据进行分类;步骤二,使用标准视觉指令调整在外部高质量多模态数据上训练参考模型;步骤三,根据参考模型RM得出的对数概率计算所有文本标记的参考损失;步骤四,通过步骤三计算的参考损失对步骤一获取的多模态预训练数据进行排序和筛选数据,获得最终高质量多模态预训练数据。本发明的基于多模态大模型的多模态预训练数据过滤方法,会仔细检查数据集,以找出具有最高代表性和训练价值的数据样本。
技术关键词
数据过滤方法 多模态 文本 标记 图像 视觉 指令 焦点 实体 样本 颜色 序列
系统为您推荐了相关专利信息
1
一种基于图像处理的机器视觉检测方法及系统
关键特征值 机器视觉检测方法 子模块 物体扫描 视觉检测模块
2
一种基板耐压测试装置和测试系统
耐压测试装置 能量系统 仿真模型 电场 仿真数据
3
引导式量子视觉图像识别方法及装置
视觉图像识别方法 注意力机制 互补机制 视觉图像识别装置 计算机可读指令
4
一种基于无人机场的公路施工安全巡检方法及系统
巡检方法 无人机巡检路径 图像处理模型 公路 实时数据
5
一种支持北斗与AI的智能物联网应急通信方法及系统
事故现场 物联网应急 策略 通信链路状态 地理位置信息
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号