一种基于多模态大模型的视频理解方法、设备及介质

正文

推荐专利

申请号：CN202510256546

申请日期：2025-03-05

公开号：CN120236225A

公开日期：2025-07-01

类型：发明专利

摘要

本申请公开了一种基于多模态大模型的视频理解方法、设备及介质，方法包括：通过动态Alpha混合技术，将预先确定好的第一帧对应的视觉提示信息与视频帧序列进行逐帧融合；从融合后的视频帧序列中提取多帧特征，并整合多帧特征生成对应的时空视觉表示；针对视频帧序列中的每一个当前帧，将当前帧对应前一帧的视觉提示信息与当前帧的视觉特征进行融合，生成视频帧序列中第一帧之后所有帧的视觉提示信息；根据动态Alpha混合系数，对视频帧序列中每两个相邻帧的视觉提示信息进行平滑过渡，以通过自回归语言模型，并结合文本指令与时空视觉表示，生成对应的视频理解结果。

技术关键词

视频理解方法视频帧多模态序列视觉特征 Bézier曲线多头注意力机制非易失性计算机存储介质计算机可执行指令语义特征生成答案 Sigmoid函数动态编码器文本处理器

系统为您推荐了相关专利信息

一种船用巡检机器人控制方法及系统

巡检仪表个性化特征巡检机器人识别算法船舶仪表

基于谓词逻辑与多模态融合的新闻影像价值评估方法及系统

价值评估方法关键帧三元组逻辑影像

一种基于深度学习的古籍文本实体关系抽取方法及系统

实体关系抽取方法文本动态知识图谱实体关系抽取系统注意力机制

一种状态空间对偶性多实例病理图像分类方法及系统

病理图像分类方法肺癌病理融合特征多实例加权特征

一种古琴多维物理特征智能检测方法及价值评估系统

特征检测系统多光谱成像古琴可折叠机械臂价值评估系统

一种基于多模态大模型的视频理解方法、设备及介质

站点导航

APP 下载