摘要
本发明公开了一种基于BPE的视频模态特征处理方法及系统,方法包括将视频帧通过BPE算法进行合并,达到设定数量的视频帧后进行视频编码得到视频特征向量表示,或者将视频帧通过视频编码后再通过BPE算法进行合并得到视频帧特征向量;将文本进行编码得到文本特征向量表示;将文本特征向量表示和视频特征向量表示进行线性变换,或者将文本特征向量表示和视频帧特征向量进行线性变换,得到多模态特征向量表示;通过大语言模型处理多模态特征向量表示,生成多维度的视频内容表示。本发明通过BPE算法能够适应不同长度的视频内容,确保无论视频的长短,其关键信息都能得到有效保留,为video LLMs提供了数据基础,使其能够全面理解视频内容。
技术关键词
视频帧
文本特征向量
视频特征向量
视频编码
直方图
大语言模型
算法
分段
多模态特征
对齐模块
元素
编码模块
基础
数据
系统为您推荐了相关专利信息
水下图像增强方法
颜色直方图
水下图像增强系统
预训练模型
文本编码器
外观缺陷检测方法
外观缺陷检测系统
二值化图像
缺陷类别
金属件
维修机器人
数值模拟方法
团簇尺寸
性能退化规律
物理性能参数
验证系统
数据采集模块
电子
机器学习算法
图像识别算法
图像生成方法
胆管癌
图像灰度直方图
噪声样本
造影剂