一种基于多模态大模型的视频理解方法、设备及介质

AITNT
正文
推荐专利
一种基于多模态大模型的视频理解方法、设备及介质
申请号:CN202510256546
申请日期:2025-03-05
公开号:CN120236225A
公开日期:2025-07-01
类型:发明专利
摘要
本申请公开了一种基于多模态大模型的视频理解方法、设备及介质,方法包括:通过动态Alpha混合技术,将预先确定好的第一帧对应的视觉提示信息与视频帧序列进行逐帧融合;从融合后的视频帧序列中提取多帧特征,并整合多帧特征生成对应的时空视觉表示;针对视频帧序列中的每一个当前帧,将当前帧对应前一帧的视觉提示信息与当前帧的视觉特征进行融合,生成视频帧序列中第一帧之后所有帧的视觉提示信息;根据动态Alpha混合系数,对视频帧序列中每两个相邻帧的视觉提示信息进行平滑过渡,以通过自回归语言模型,并结合文本指令与时空视觉表示,生成对应的视频理解结果。
技术关键词
视频理解方法 视频帧 多模态 序列 视觉特征 Bézier曲线 多头注意力机制 非易失性计算机存储介质 计算机可执行指令 语义特征 生成答案 Sigmoid函数 动态 编码器 文本 处理器
系统为您推荐了相关专利信息
1
一种船用巡检机器人控制方法及系统
巡检仪表 个性化特征 巡检机器人 识别算法 船舶仪表
2
基于谓词逻辑与多模态融合的新闻影像价值评估方法及系统
价值评估方法 关键帧 三元组 逻辑 影像
3
一种基于深度学习的古籍文本实体关系抽取方法及系统
实体关系抽取方法 文本 动态知识图谱 实体关系抽取系统 注意力机制
4
一种状态空间对偶性多实例病理图像分类方法及系统
病理图像分类方法 肺癌病理 融合特征 多实例 加权特征
5
一种古琴多维物理特征智能检测方法及价值评估系统
特征检测系统 多光谱成像 古琴 可折叠机械臂 价值评估系统
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号