基于多分支视觉表征的多模态大模型的视频理解方法和装置

AITNT
正文
推荐专利
基于多分支视觉表征的多模态大模型的视频理解方法和装置
申请号:CN202411509825
申请日期:2024-10-28
公开号:CN119478771A
公开日期:2025-02-18
类型:发明专利
摘要
本申请提供了一种基于多分支视觉表征的多模态大模型的视频理解方法和装置,涉及视觉技术领域,旨在实现通用、泛化并准确的细粒度视频理解。所述方法包括:获取文本提问信息对应的文本特征表征;对待理解视频进行时序信息编码,得到时序特征表征;对所述待理解视频进行细粒度信息提取,得到视觉特征表征,所述视觉特征表征包括:视觉‑文本对齐特征表征和细粒度视觉特征表征;对所述视觉特征表征至少进行空间压缩,得到压缩视觉特征表征;将所述压缩视觉特征表征、所述时序特征表征和所述文本特征表征输入到大语言模型,生成所述文本提问信息对应的视频理解结果。
技术关键词
视觉特征 视频理解方法 时序特征 文本 视频帧 多分支 信息编码 大语言模型 处理器 计算机程序产品 滑动窗口 模块 队列 可读存储介质 总量 格式 存储器
系统为您推荐了相关专利信息
1
一种面向医学院教育场景的大模型微调方法和装置
微调方法 教育场景 问答对数据 答案 数据处理模块
2
一种自动扶梯桁架缺陷的检测方法及系统
自动扶梯桁架 三维点云数据 视频帧 分水岭算法 坐标
3
基于机理数据融合的风电机故障诊断方法及系统
电机故障诊断方法 矩阵乘法运算 耦合特征 时序特征 功率
4
一种基于预训练扩散模型的通用零样本图像合成方法
图像 噪声预测 物体 流水线 注意力
5
一种基于xLSTM-ATT的漏洞检测方法
漏洞检测方法 长短期记忆网络 特征提取模块 引入注意力机制 对源代码
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号