摘要
本发明提供一种基于双层混合专家模型的视频理解方法和装置,包括:将获取的文本描述进行文本扩增,同时生成可学习的文本提示,将文本扩增得到的扩增文本描述与可学习的文本提示进行编码得到文本特征;将视频分成多个视频序列块,将视频与各视频序列块拼接后输入视频编码器进行编码得到视觉特征;每个视频序列块包含同一位置的完整视频信息以及可学习的视觉提示;利用预训练的大语言模型基于视觉特征和文本特征分别生成视觉标记和文本标记;使用双层混合专家模型学习视觉标记和文本标记得到视频内容表述。本发明通过结合文本描述和视觉特征,以及使用预训练的大语言模型和双层混合专家模型,能够更准确地理解视频内容。
技术关键词
视频理解方法
视觉特征
视频编码器
标记
序列
非暂态计算机可读存储介质
视频块
变压器模型
采样器
文本编码器
处理器
数据获取模块
计算机程序产品
编码模块
系统为您推荐了相关专利信息
纠正方法
特征值
多尺度卷积神经网络
构建机器学习模型
流形学习算法
子孔径图像
散斑图像
微透镜阵列
图像恢复装置
幅值
膜片
数控机床控制模块
柔性可弯折
标记
三维模型
健康状况分析方法
潜在健康风险
时序关联分析
特征提取算法
视频流