摘要
本发明涉及一种面向人机混合视觉的语义感知视频压缩方法及系统,方法包括:提取视频序列的动态语义,生成感兴趣区域;根据输入帧和对应的感兴趣区域掩码生成视觉一致的聚焦帧;通过熵模型预测聚焦帧的特征概率分布,并将其压缩为码流;通过条件解码器对码流进行解码,得到语义压缩重建视频;将基础分支和辅助分支的解码帧缓冲区中的解码帧进行特征对齐,生成预测特征;将预测特征的预测帧和视频序列输入熵模型中,通过熵编码压缩为码流;对码流进行解码得到重建特征;将重建特征转化为精细重建特征,得到最终的压缩重建视频。与现有技术相比,本发明在低码率条件下仍能维持较高的机器视觉任务准确度,在机器视觉任务中实现更高的率准确率性能。
技术关键词
感知视频压缩方法
面向人机
生成感兴趣区域
语义
预测特征
视觉
序列特征
分支
交叉注意力机制
聚焦特征
解码器
比特数
视频压缩系统
网络
编码
系统为您推荐了相关专利信息
DGA域名
恶意程序代码
网络安全模块
网络安全知识图谱
神经网络模型
分布式强化学习
三维建模数据
中继节点
通信链路状态
集群通信