一种基于双层混合专家模型的视频理解方法和装置

正文

推荐专利

申请号：CN202411728301

申请日期：2024-11-28

公开号：CN119964043B

公开日期：2025-10-10

类型：发明专利

摘要

本发明提供一种基于双层混合专家模型的视频理解方法和装置，包括：将获取的文本描述进行文本扩增，同时生成可学习的文本提示，将文本扩增得到的扩增文本描述与可学习的文本提示进行编码得到文本特征；将视频分成多个视频序列块，将视频与各视频序列块拼接后输入视频编码器进行编码得到视觉特征；每个视频序列块包含同一位置的完整视频信息以及可学习的视觉提示；利用预训练的大语言模型基于视觉特征和文本特征分别生成视觉标记和文本标记；使用双层混合专家模型学习视觉标记和文本标记得到视频内容表述。本发明通过结合文本描述和视觉特征，以及使用预训练的大语言模型和双层混合专家模型，能够更准确地理解视频内容。

技术关键词

视频理解方法视觉特征视频编码器标记序列非暂态计算机可读存储介质视频块变压器模型采样器文本编码器处理器数据获取模块计算机程序产品编码模块

系统为您推荐了相关专利信息

一种基于训练图像反馈识别的宠物狗行为纠正方法

纠正方法特征值多尺度卷积神经网络构建机器学习模型流形学习算法

一种基于深度学习的视频流采集方法

关键帧重构视频序列颜色直方图视频流数据

用于内窥镜的散斑图像恢复装置及方法

子孔径图像散斑图像微透镜阵列图像恢复装置幅值

充气式异形构造及其制作方法

膜片数控机床控制模块柔性可弯折标记三维模型

基于猪只行为的猪只健康状况分析方法与系统

健康状况分析方法潜在健康风险时序关联分析特征提取算法视频流

一种基于双层混合专家模型的视频理解方法和装置

站点导航

APP 下载