一种基于多模态大模型的生成式视频编解码

AITNT
正文
推荐专利
一种基于多模态大模型的生成式视频编解码
申请号:CN202510768731
申请日期:2025-06-10
公开号:CN120475165A
公开日期:2025-08-12
类型:发明专利
摘要
本发明涉及视频编解码技术领域,公开了一种基于多模态大模型的生成式视频编解码,包含关键帧选择模块,通过分析视频帧的语义和运动特征确定关键帧;多模态语义描述生成模块,根据关键帧和视频片段生成语义描述;关键帧压缩模块,通过潜变量建模和熵编码实现高效压缩;关键帧重建模块结合压缩数据和语义描述信息,使用条件扩散模型重建关键帧;视频生成模块则利用语义描述和关键帧生成非关键帧,重建完整视频。通过结合语义和运动信息的关键帧筛选、基于条件潜变量扩散模型的关键帧压缩与重建、以及基于语义描述的补帧和插帧生成,本发明能够在低码率下实现高效的压缩和高质量的视频重建,有效提高视频存储效率和视觉质量。
技术关键词
关键帧 多模态 变量 运动特征 光流估计算法 无损压缩编码 视频编解码技术 模块 语义特征提取 神经网络参数 特征提取单元 熵编码器 噪声 神经网络模型
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号