一种免训练的网格化视频特征压缩方法

正文

推荐专利

一种免训练的网格化视频特征压缩方法

申请号：CN202510993366

申请日期：2025-07-18

公开号：CN120825584A

公开日期：2025-10-21

类型：发明专利

摘要

本发明公开了一种免训练的网格化视频特征压缩方法，通过时空融合与语义压缩技术显著提升多模态大模型的长视频处理效率。包括：将长视频帧序列按时间顺序重组为网格图像，利用视觉Transformer提取时空联合特征；基于全局语义中心计算余弦相似度，筛选前U个关键视觉标记；通过归一化权重将非关键标记信息动态融合至关键标记，实现冗余压缩。最终将压缩视觉标记经线性投影对齐文本空间，与任务提示及用户查询拼接后输入大语言模型。该方法在完全免训练前提下，使视觉标记数量减少，GPU显存降低，推理速度提升，同时准确率提高，有效解决长视频理解中的计算瓶颈问题，适用于LLaVA、Video‑LLaMA等主流多模态框架的即插即用部署。

技术关键词

标记序列网格图像块文本语义大语言模型视觉特征编码多模态线性注意力机制度函数视频帧冗余瓶颈动态

系统为您推荐了相关专利信息

基于检索增强生成的语音问答方法、系统、介质及产品

大语言模型语音问答方法音频文本生成技术

一种光伏发电预测方法、装置、设备及介质

光伏发电预测方法机器学习模型历史气象数据太阳能光伏电站支持向量回归模型

一种兔子呼吸异常行为自动识别、记录系统

数据分析模块图像采集模块数据传输模块无线传输单元像素点

面向装配式建筑的构件级造价智能核验方法及其系统

装配式建筑深度学习模型预警机制关系偏差

一种基于大语言模型的政务热线工单智能分拨方法

大语言模型案件政务数据批量

一种免训练的网格化视频特征压缩方法

站点导航

APP 下载