摘要
本发明公开了一种免训练的网格化视频特征压缩方法,通过时空融合与语义压缩技术显著提升多模态大模型的长视频处理效率。包括:将长视频帧序列按时间顺序重组为网格图像,利用视觉Transformer提取时空联合特征;基于全局语义中心计算余弦相似度,筛选前U个关键视觉标记;通过归一化权重将非关键标记信息动态融合至关键标记,实现冗余压缩。最终将压缩视觉标记经线性投影对齐文本空间,与任务提示及用户查询拼接后输入大语言模型。该方法在完全免训练前提下,使视觉标记数量减少,GPU显存降低,推理速度提升,同时准确率提高,有效解决长视频理解中的计算瓶颈问题,适用于LLaVA、Video‑LLaMA等主流多模态框架的即插即用部署。
技术关键词
标记
序列
网格
图像块
文本
语义
大语言模型
视觉特征编码
多模态
线性
注意力机制
度函数
视频帧
冗余
瓶颈
动态
系统为您推荐了相关专利信息
光伏发电预测方法
机器学习模型
历史气象数据
太阳能光伏电站
支持向量回归模型
数据分析模块
图像采集模块
数据传输模块
无线传输单元
像素点