摘要
本发明提出一种基于注意力机制的感知优化视频编码量化参数预测方法,通过将原始视频划分为多帧并依次送入轻量化主干网络提取深度特征,再结合可学习的查询向量在相应的目标检测模型中自动检测关键兴趣区域,生成软注意力图并与原始特征按通道加权相乘,从而得到增强后的加权特征图。在此基础上,将加权特征图切分为若干固定大小的图像块,通过线性映射与位置编码生成token,输入多层轻量级Transformer编码器进行全局上下文建模,最后经由多层感知网络逐块回归出量化参数预测值并组合成帧级量化参数分配图。采用本发明方法生成的视频编码量化参数,可在确保编码效率的前提下,显著提升目标兴趣区域和整体画面的主观视觉质量。
技术关键词
优化视频编码
量化参数预测
多层感知网络
加权特征
编码器
卷积神经网络提取
信息显示设备
解码器
检测损失
多头注意力机制
联合损失函数
深度空间特征
图像块
人工智能模型
检测器