语言视频模型训练及视频处理方法、设备、介质和产品

正文

推荐专利

申请号：CN202411053459

申请日期：2024-08-01

公开号：CN118608900B

公开日期：2024-12-27

类型：发明专利

摘要

本发明实施例提供一种语言视频模型训练及视频处理方法、设备、介质和产品，属于AI领域，该方法包括：获取训练样本视频及其对应的详细描述文本和摘要描述文本；通过语言视频模型中的文本编码器和视频编码器分别确定详细描述文本的第一文本特征、摘要描述文本的第二文本特征，训练样本视频的第一视频特征；以第一文本特征与第二文本特征之间的第一相似度为指导，对第一视频特征进行主成分提取得到第二视频特征；根据第一视频特征和第一文本特征确定第一损失函数值，并根据第二视频特征和第二文本特征确定第二损失函数值；根据第一损失函数值和第二损失函数值，训练语言视频模型，使得该语言视频模型具有良好的长视频描述文本的理解能力。

技术关键词

文本编码器非暂时性机器可读存储介质视频编码器大语言模型摘要模型训练方法关键帧视觉特征信息处理器训练样本数据电子设备计算机程序产品通信接口存储器数值对象

系统为您推荐了相关专利信息

一种多模态多源异构数据融合方法

多源异构数据融合多模态文件哈希值度计算方法数据处理技术

基于多样性与可解释建模的鲁棒试题编码评分方法及系统

评分方法编码关键词摘要主题发现方法

一种基于强化学习的多语言环境翻译语境优化方法

上下文语境信息路由器调度算法信号生成单元策略更新

基于Re-Plan原则的家庭机器人动作生成方法

动作生成方法家庭机器人家庭服务机器人视觉特征大语言模型

一种评估大语言模型在建筑领域应用效果的方法及系统

大语言模型建筑正确率有效率提问方法

语言视频模型训练及视频处理方法、设备、介质和产品

站点导航

APP 下载