摘要
本申请提供一种仿生的长视频理解方法及相关装置,通过获取长视频内容数据,并对所述长视频内容数据进行视频预处理,得到多个短视频片段,所述短视频片段至少包含视频段大小、视频字幕以及开放词汇;之后将所述多个短视频片段存储至向量数据库,同时所述向量数据库接收用户端发送的动态任务问题;最后依据所述多个短视频片段,调用多模态大模型对所述动态任务问题进行任务评估、分解、规划以及工具调用,以实现长视频理解。本申请技术方案通过观察人类对长视频检索和理解的过程,以达到减少计算量、提高计算效率、快速适应下游任务的目的。
技术关键词
短视频
视频理解方法
字幕
自动语音识别技术
非暂时性机器可读存储介质
视频段
视频帧
处理单元
数据
生成技术
多模态
动态
理解系统
处理器
分段
规划
电子设备
图像
系统为您推荐了相关专利信息
组学特征
定量磁化率
状态分类方法
影像
非暂时性机器可读存储介质
文本生成方法
短视频
长短期记忆网络
序列
视频帧
立体
高密度
层次聚类算法
非暂时性机器可读存储介质
覆盖率