一种多模态大模型自适应视频帧压缩方法及系统

正文

推荐专利

申请号：CN202511016440

申请日期：2025-07-23

公开号：CN120751130A

公开日期：2025-10-03

类型：发明专利

摘要

本发明公开了一种多模态大模型自适应视频帧压缩方法及系统，涉及多模态视频分析领域，方法包括：S1，获取用户文本指令和原始视频的采样视频帧；S2，将用户文本指令通过层级思维链推理转化为时空语义指令；S3，提取采样视频帧的视觉特征，通过时空语义指令为视觉特征进行重要性打分，得到语义权重矩阵；S4，基于语义权重矩阵，动态调整每帧的视觉特征数量与空间分辨率，基于新空间分辨率调整自适应池化参数并进行自适应加权池化，得到压缩精炼后的特征。本发明通过将用户文本指令解耦为时间、空间与上下文三维指令，生成动态语义权重矩阵，降低视觉‑文本语义对齐误差；基于权重矩阵自适应调整令牌密度，压缩合并冗余区域，降低计算复杂度。

技术关键词

视频帧压缩方法预训练模型跨模态指令文本编码器矩阵视觉特征提取分辨率多模态层级语义向量实体动态参数关键帧

系统为您推荐了相关专利信息

构网型储能变流器的测试方法、装置、计算机设备、可读存储介质和程序产品

储能变流器环境模拟设备数据采集设备层次分析模型故障模拟设备

底栖生物丰富度的预测方法、装置、设备、介质及产品

营养盐随机森林模型参数可读存储介质指标

轻量级物理约束时序信道模型确定方法、应用方法及装置

语义标签时序信道冲激响应多径参数物理

一种智慧交通企业的多源数据融合与智能分析方法

智能分析方法雷达信噪比引入注意力机制加权融合算法企业

一种塔吊远程操作的能耗优化系统

能耗优化系统运动特征多模态数据融合注意力机制能量管理模块

一种多模态大模型自适应视频帧压缩方法及系统

站点导航

APP 下载