摘要
本发明公开了一种基于树编码的长视频生成的优化方法,包括:构建视频帧序列,获取帧特征;聚类帧特征,获取关键帧和视频查询间的相关性评分;计算高相关性簇数量,输出对应的帧特征集以及相关性评分;将所有高相关性簇的关键帧作为视频特征树的第一层节点,将高相关性簇分别聚类为w个子簇,基于子簇关键帧构建第二层,第二层节点的相关性评分为第一层节点的相关性评分减一,按照以上方法构建每层,直至最后一层节点的相关性评分为一;大语言模型基于投机采样原理和草稿模型的输出优化推理结果;将优化后的推理结果和视频帧序列输入预设视频生成模型得到回答视频。本发明通过查询自适应和层次化的长视频理解提高推理准确性和效率。
技术关键词
关键帧
大语言模型
视频生成模型
节点
视频帧
编码
掩码方法
字幕
文本
序列
矩阵
聚类