摘要
本申请提供了一种基于多分支视觉表征的多模态大模型的视频理解方法和装置,涉及视觉技术领域,旨在实现通用、泛化并准确的细粒度视频理解。所述方法包括:获取文本提问信息对应的文本特征表征;对待理解视频进行时序信息编码,得到时序特征表征;对所述待理解视频进行细粒度信息提取,得到视觉特征表征,所述视觉特征表征包括:视觉‑文本对齐特征表征和细粒度视觉特征表征;对所述视觉特征表征至少进行空间压缩,得到压缩视觉特征表征;将所述压缩视觉特征表征、所述时序特征表征和所述文本特征表征输入到大语言模型,生成所述文本提问信息对应的视频理解结果。
技术关键词
视觉特征
视频理解方法
时序特征
文本
视频帧
多分支
信息编码
大语言模型
处理器
计算机程序产品
滑动窗口
模块
队列
可读存储介质
总量
格式
存储器
系统为您推荐了相关专利信息
微调方法
教育场景
问答对数据
答案
数据处理模块
自动扶梯桁架
三维点云数据
视频帧
分水岭算法
坐标
电机故障诊断方法
矩阵乘法运算
耦合特征
时序特征
功率
漏洞检测方法
长短期记忆网络
特征提取模块
引入注意力机制
对源代码