摘要
本发明涉及视频编解码技术领域,公开了一种基于多模态大模型的生成式视频编解码,包含关键帧选择模块,通过分析视频帧的语义和运动特征确定关键帧;多模态语义描述生成模块,根据关键帧和视频片段生成语义描述;关键帧压缩模块,通过潜变量建模和熵编码实现高效压缩;关键帧重建模块结合压缩数据和语义描述信息,使用条件扩散模型重建关键帧;视频生成模块则利用语义描述和关键帧生成非关键帧,重建完整视频。通过结合语义和运动信息的关键帧筛选、基于条件潜变量扩散模型的关键帧压缩与重建、以及基于语义描述的补帧和插帧生成,本发明能够在低码率下实现高效的压缩和高质量的视频重建,有效提高视频存储效率和视觉质量。
技术关键词
关键帧
多模态
变量
运动特征
光流估计算法
无损压缩编码
视频编解码技术
模块
语义特征提取
神经网络参数
特征提取单元
熵编码器
噪声
神经网络模型