一种基于多模态大模型的生成式视频编解码

正文

推荐专利

一种基于多模态大模型的生成式视频编解码

申请号：CN202510768731

申请日期：2025-06-10

公开号：CN120475165A

公开日期：2025-08-12

类型：发明专利

摘要

本发明涉及视频编解码技术领域，公开了一种基于多模态大模型的生成式视频编解码，包含关键帧选择模块，通过分析视频帧的语义和运动特征确定关键帧；多模态语义描述生成模块，根据关键帧和视频片段生成语义描述；关键帧压缩模块，通过潜变量建模和熵编码实现高效压缩；关键帧重建模块结合压缩数据和语义描述信息，使用条件扩散模型重建关键帧；视频生成模块则利用语义描述和关键帧生成非关键帧，重建完整视频。通过结合语义和运动信息的关键帧筛选、基于条件潜变量扩散模型的关键帧压缩与重建、以及基于语义描述的补帧和插帧生成，本发明能够在低码率下实现高效的压缩和高质量的视频重建，有效提高视频存储效率和视觉质量。

技术关键词

关键帧多模态变量运动特征光流估计算法无损压缩编码视频编解码技术模块语义特征提取神经网络参数特征提取单元熵编码器噪声神经网络模型

一种基于多模态大模型的生成式视频编解码

站点导航

APP 下载