摘要
本发明公开了一种多模态大模型自适应视频帧压缩方法及系统,涉及多模态视频分析领域,方法包括:S1,获取用户文本指令和原始视频的采样视频帧;S2,将用户文本指令通过层级思维链推理转化为时空语义指令;S3,提取采样视频帧的视觉特征,通过时空语义指令为视觉特征进行重要性打分,得到语义权重矩阵;S4,基于语义权重矩阵,动态调整每帧的视觉特征数量与空间分辨率,基于新空间分辨率调整自适应池化参数并进行自适应加权池化,得到压缩精炼后的特征。本发明通过将用户文本指令解耦为时间、空间与上下文三维指令,生成动态语义权重矩阵,降低视觉‑文本语义对齐误差;基于权重矩阵自适应调整令牌密度,压缩合并冗余区域,降低计算复杂度。
技术关键词
视频帧压缩方法
预训练模型
跨模态
指令
文本编码器
矩阵
视觉特征提取
分辨率
多模态
层级
语义向量
实体
动态
参数
关键帧
系统为您推荐了相关专利信息
储能变流器
环境模拟设备
数据采集设备
层次分析模型
故障模拟设备
智能分析方法
雷达信噪比
引入注意力机制
加权融合算法
企业
能耗优化系统
运动特征
多模态数据融合
注意力机制
能量管理模块