一种免训练的网格化视频特征压缩方法

AITNT
正文
推荐专利
一种免训练的网格化视频特征压缩方法
申请号:CN202510993366
申请日期:2025-07-18
公开号:CN120825584A
公开日期:2025-10-21
类型:发明专利
摘要
本发明公开了一种免训练的网格化视频特征压缩方法,通过时空融合与语义压缩技术显著提升多模态大模型的长视频处理效率。包括:将长视频帧序列按时间顺序重组为网格图像,利用视觉Transformer提取时空联合特征;基于全局语义中心计算余弦相似度,筛选前U个关键视觉标记;通过归一化权重将非关键标记信息动态融合至关键标记,实现冗余压缩。最终将压缩视觉标记经线性投影对齐文本空间,与任务提示及用户查询拼接后输入大语言模型。该方法在完全免训练前提下,使视觉标记数量减少,GPU显存降低,推理速度提升,同时准确率提高,有效解决长视频理解中的计算瓶颈问题,适用于LLaVA、Video‑LLaMA等主流多模态框架的即插即用部署。
技术关键词
标记 序列 网格 图像块 文本 语义 大语言模型 视觉特征编码 多模态 线性 注意力机制 度函数 视频帧 冗余 瓶颈 动态
系统为您推荐了相关专利信息
1
基于检索增强生成的语音问答方法、系统、介质及产品
大语言模型 语音问答方法 音频 文本 生成技术
2
一种光伏发电预测方法、装置、设备及介质
光伏发电预测方法 机器学习模型 历史气象数据 太阳能光伏电站 支持向量回归模型
3
一种兔子呼吸异常行为自动识别、记录系统
数据分析模块 图像采集模块 数据传输模块 无线传输单元 像素点
4
面向装配式建筑的构件级造价智能核验方法及其系统
装配式建筑 深度学习模型 预警机制 关系 偏差
5
一种基于大语言模型的政务热线工单智能分拨方法
大语言模型 案件 政务 数据 批量
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号