摘要
本公开提供了训练数据处理方法、模型训练方法、类别识别方法及装置,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习、大模型等技术领域,可应用于多模态数据处理。具体实现方案为:获取目标类别的待处理视频;基于待处理视频,生成至少一组图像文本对,其中,图像文本对包括内容匹配的文本和图像;基于至少一组图像文本对中的文本和图像,生成图文交替排列的图文交错数据;基于图文交错数据,确定预训练模型的训练数据,训练数据用于训练预训练模型识别目标类别。
技术关键词
文本
视频
图像
预训练模型
训练数据处理方法
像素
类别识别方法
模型训练方法
生成图文
画面
模块
模型训练装置
关键帧
处理器
人工智能技术
计算机程序产品
系统为您推荐了相关专利信息
指针式仪表
关键点
读数方法
平面镜
文本识别模型
展示系统
数据融合技术
资源
图像增强
自动特征提取
铁路接触网
接触网定位器
除冰工具
机器人末端工具
机械除冰装置
医疗远程会诊
镜头
实时视频流
交互视频
虚拟三维模型