摘要
本申请公开了一种基于多模态大模型的视频理解方法、设备及介质,方法包括:通过动态Alpha混合技术,将预先确定好的第一帧对应的视觉提示信息与视频帧序列进行逐帧融合;从融合后的视频帧序列中提取多帧特征,并整合多帧特征生成对应的时空视觉表示;针对视频帧序列中的每一个当前帧,将当前帧对应前一帧的视觉提示信息与当前帧的视觉特征进行融合,生成视频帧序列中第一帧之后所有帧的视觉提示信息;根据动态Alpha混合系数,对视频帧序列中每两个相邻帧的视觉提示信息进行平滑过渡,以通过自回归语言模型,并结合文本指令与时空视觉表示,生成对应的视频理解结果。
技术关键词
视频理解方法
视频帧
多模态
序列
视觉特征
Bézier曲线
多头注意力机制
非易失性计算机存储介质
计算机可执行指令
语义特征
生成答案
Sigmoid函数
动态
编码器
文本
处理器
系统为您推荐了相关专利信息
巡检仪表
个性化特征
巡检机器人
识别算法
船舶仪表
实体关系抽取方法
文本
动态知识图谱
实体关系抽取系统
注意力机制
病理图像分类方法
肺癌病理
融合特征
多实例
加权特征
特征检测系统
多光谱成像
古琴
可折叠机械臂
价值评估系统