摘要
本发明公开了一种基于指令条件压缩的视频理解方法、系统、设备及介质,它们是一一对应的方案,方案中:从有条件压缩这一角度出发,引入指令内容作为条件,进行针对性的压缩,即在局部和全局混合的两个层次注入指令,在压缩过程中尽可能保留与指令相关联的视觉信息,允许无关信息损失,实现有条件压缩,压缩时能够很好的兼顾视觉特征的高压缩率与低信息损失,并且能够尽可能多的保留完成指令任务所需要的视觉细节,从而更好的完成视频理解任务,实现了在更高效压缩的同时取得优秀的视频理解能力。
技术关键词
视频理解方法
局部视觉特征
指令
注意力机制
大语言模型
文本编码器
序列
理解系统
嵌入特征
处理器
采样率
可读存储介质
符号
线性
系统为您推荐了相关专利信息
协同控制方法
移动机器人
控制系统
机制
实时人机交互
地质结构
数据建模方法
编码向量
特征编码模型
三维地质模型
风险评估方法
数据采集网络
深度学习神经网络
可读存储介质
无人机航测系统
待测设备
嵌入式闪存
自动化测试方法
微型计算机
主机端