摘要
本申请实施例提供了一种视觉文本预训练模型的训练方法、装置、设备及介质,属于人工智能技术领域。该方法包括:将获取到的样本视频和样本文本输入至初始多模态处理模型中,对样本视频进行分割处理得到多个初始视频帧,并从样本文本中提取得到文本特征;对每一初始视频帧中的各个初始像素块进行时空重要性评估得到时空信息;基于时空信息确定遮掩视频帧,并基于文本特征对遮掩视频帧中处于遮掩状态下的部分进行特征重建处理,得到样本重建结果;根据样本重建结果计算损失值,并根据损失值对初始多模态处理模型的模型参数进行调整,得到训练后的目标多模态处理模型。本申请能够提高训练得到的多模态处理模型对多模态信息的理解能力。
技术关键词
像素块
预训练模型
文本
多模态
视频帧
样本
视觉
参数
可读存储介质
人工智能技术
标识
训练装置
电子设备
处理器
模块
存储器
计算机
系统为您推荐了相关专利信息
智能调控
多模态
多工业机器人
路径智能规划
清洗参数
识别预警系统
佩戴设备
在线学习技术
识别预警方法
电力作业现场
本地化方法
文本
智能学习模型
键值
神经网络模型
物品识别系统
计算机视觉
Kalman滤波
多模态数据采集
多模态传感器