视觉文本预训练模型的训练方法、装置、设备及介质

AITNT
正文
推荐专利
视觉文本预训练模型的训练方法、装置、设备及介质
申请号:CN202510591776
申请日期:2025-05-08
公开号:CN120747656A
公开日期:2025-10-03
类型:发明专利
摘要
本申请实施例提供了一种视觉文本预训练模型的训练方法、装置、设备及介质,属于人工智能技术领域。该方法包括:将获取到的样本视频和样本文本输入至初始多模态处理模型中,对样本视频进行分割处理得到多个初始视频帧,并从样本文本中提取得到文本特征;对每一初始视频帧中的各个初始像素块进行时空重要性评估得到时空信息;基于时空信息确定遮掩视频帧,并基于文本特征对遮掩视频帧中处于遮掩状态下的部分进行特征重建处理,得到样本重建结果;根据样本重建结果计算损失值,并根据损失值对初始多模态处理模型的模型参数进行调整,得到训练后的目标多模态处理模型。本申请能够提高训练得到的多模态处理模型对多模态信息的理解能力。
技术关键词
像素块 预训练模型 文本 多模态 视频帧 样本 视觉 参数 可读存储介质 人工智能技术 标识 训练装置 电子设备 处理器 模块 存储器 计算机
系统为您推荐了相关专利信息
1
一种基于多模态感知与智能调控的工业清洗系统
智能调控 多模态 多工业机器人 路径智能规划 清洗参数
2
基于视频分析的电力作业人员行为识别预警系统及方法
识别预警系统 佩戴设备 在线学习技术 识别预警方法 电力作业现场
3
应用程序本地化方法、装置、设备及存储介质
本地化方法 文本 智能学习模型 键值 神经网络模型
4
一种基于MCML和SORT卡尔曼滤波结合的高空抛物监测方法和装置
卡尔曼滤波 监测方法 背景建模技术 图像 像素点
5
一种基于计算机视觉的物品识别系统
物品识别系统 计算机视觉 Kalman滤波 多模态数据采集 多模态传感器
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号