基于多分支视觉表征的多模态大模型的视频理解方法和装置

正文

推荐专利

申请号：CN202411509825

申请日期：2024-10-28

公开号：CN119478771A

公开日期：2025-02-18

类型：发明专利

摘要

本申请提供了一种基于多分支视觉表征的多模态大模型的视频理解方法和装置，涉及视觉技术领域，旨在实现通用、泛化并准确的细粒度视频理解。所述方法包括：获取文本提问信息对应的文本特征表征；对待理解视频进行时序信息编码，得到时序特征表征；对所述待理解视频进行细粒度信息提取，得到视觉特征表征，所述视觉特征表征包括：视觉‑文本对齐特征表征和细粒度视觉特征表征；对所述视觉特征表征至少进行空间压缩，得到压缩视觉特征表征；将所述压缩视觉特征表征、所述时序特征表征和所述文本特征表征输入到大语言模型，生成所述文本提问信息对应的视频理解结果。

技术关键词

视觉特征视频理解方法时序特征文本视频帧多分支信息编码大语言模型处理器计算机程序产品滑动窗口模块队列可读存储介质总量格式存储器

系统为您推荐了相关专利信息

一种面向医学院教育场景的大模型微调方法和装置

微调方法教育场景问答对数据答案数据处理模块

一种自动扶梯桁架缺陷的检测方法及系统

自动扶梯桁架三维点云数据视频帧分水岭算法坐标

基于机理数据融合的风电机故障诊断方法及系统

电机故障诊断方法矩阵乘法运算耦合特征时序特征功率

一种基于预训练扩散模型的通用零样本图像合成方法

图像噪声预测物体流水线注意力

一种基于xLSTM-ATT的漏洞检测方法

漏洞检测方法长短期记忆网络特征提取模块引入注意力机制对源代码

基于多分支视觉表征的多模态大模型的视频理解方法和装置

站点导航

APP 下载