一种视频理解方法、系统、电子设备和存储介质

正文

推荐专利

申请号：CN202410800187

申请日期：2024-06-20

公开号：CN118823630B

公开日期：2025-08-22

类型：发明专利

摘要

本发明涉及多模态大模型技术领域，具体公开一种视频理解方法、系统、电子设备和存储介质，包括：按照预设抽帧间隔对视频进行抽帧，得到多个视频帧并编码，得到多个初始编码特征；计算每两个时间相邻的初始编码特征的余弦相似度，并将余弦相似度不大于第一阈值的初始编码特征确定为目标编码特征；当目标编码特征的数量不小于第二阈值时，构建初始时序编码特征并压缩，得到目标时序编码特征；对目标时序编码特征进行映射，得到映射编码特征，并将映射编码特征与目标视频的问题文本token序列输入至训练好的大语言模型，得到回答文本。本发明能够有效提取视频的重要变化信息，避免了信息丢失，从而提升了大语言模型对于视频理解的准确率与效率。

技术关键词

编码特征视频帧时空注意力模型大语言模型视频理解方法文本时序序列理解系统电子设备队列可读存储介质模块索引处理器代表计算机多模态

一种视频理解方法、系统、电子设备和存储介质

站点导航

APP 下载