摘要
本发明公开了深度学习驱动的视频压缩与高保真重建系统,属于视频压缩与重建技术领域,深度学习驱动的视频压缩与高保真重建系统包括以下步骤:S1.双路径架构含空间和时间编码器及融合模块;S2.结构化模板解析文本生成空间/运动嵌入向量,空间路径执行视觉-文本交叉注意力,时间路径用5步长一维卷积生成sigmoid门控系数加权融合运动特征与视觉特征;S3.训练初期KL散度与重建损失动态加权,中后期引入多层级监督,学习率周期性衰减至下限1e‑5,验证指标停滞则早停;S4特征拼接后经可变形卷积跨模态融合,亚像素上采样八倍重建;有益效果包括在低码率下仍能保持高保真度和时间流畅性,适用于超高清视频、AR/VR场景。
技术关键词
重建系统
视频压缩
sigmoid函数
视觉特征
解码器
编码器
峰值信噪比
分辨率
文本
融合运动特征
变形卷积网络
跨模态
交叉注意力机制
上采样
语义特征
像素
周期
系统为您推荐了相关专利信息
胎儿超声图像
图像分割模型
分割方法
微调特征
子模块
三维语义分割
巡检机器人
多模态
融合语义
语义向量
电功率预测方法
前馈神经网络
风电功率预测模型
多头注意力机制
编码器