视觉文本预训练模型的训练方法、装置、设备及介质

正文

推荐专利

申请号：CN202510591776

申请日期：2025-05-08

公开号：CN120747656A

公开日期：2025-10-03

类型：发明专利

摘要

本申请实施例提供了一种视觉文本预训练模型的训练方法、装置、设备及介质，属于人工智能技术领域。该方法包括：将获取到的样本视频和样本文本输入至初始多模态处理模型中，对样本视频进行分割处理得到多个初始视频帧，并从样本文本中提取得到文本特征；对每一初始视频帧中的各个初始像素块进行时空重要性评估得到时空信息；基于时空信息确定遮掩视频帧，并基于文本特征对遮掩视频帧中处于遮掩状态下的部分进行特征重建处理，得到样本重建结果；根据样本重建结果计算损失值，并根据损失值对初始多模态处理模型的模型参数进行调整，得到训练后的目标多模态处理模型。本申请能够提高训练得到的多模态处理模型对多模态信息的理解能力。

技术关键词

像素块预训练模型文本多模态视频帧样本视觉参数可读存储介质人工智能技术标识训练装置电子设备处理器模块存储器计算机

系统为您推荐了相关专利信息

一种基于多模态感知与智能调控的工业清洗系统

智能调控多模态多工业机器人路径智能规划清洗参数

基于视频分析的电力作业人员行为识别预警系统及方法

识别预警系统佩戴设备在线学习技术识别预警方法电力作业现场

应用程序本地化方法、装置、设备及存储介质

本地化方法文本智能学习模型键值神经网络模型

一种基于MCML和SORT卡尔曼滤波结合的高空抛物监测方法和装置

卡尔曼滤波监测方法背景建模技术图像像素点

一种基于计算机视觉的物品识别系统

物品识别系统计算机视觉 Kalman滤波多模态数据采集多模态传感器

视觉文本预训练模型的训练方法、装置、设备及介质

站点导航

APP 下载