一种基于多模态大模型的视频分析处理系统及方法

正文

推荐专利

申请号：CN202411636948

申请日期：2024-11-15

公开号：CN119540831B

公开日期：2025-10-24

类型：发明专利

摘要

本发明属于人工智能技术领域，具体涉及一种基于多模态大模型的视频分析处理系统及方法，所述方法包括：多模态控制大模型接收用户输入的通过自然语言描述所需完成的任务，对用户的输入进行语义分析，提取任务信息，将涉及视频理解的任务分解为子任务发送至视频理解模块；视频理解模块接收任务所需的视频或视频片段，执行子任务对视频进行分析，生成视频内容的嵌入和描述输入多模态控制大模型；多模态控制大模型接收到用户查询请求时，将用户的查询任务解析为可执行的子任务映射到视频理解的任务上，基于视频理解大模型生成的视频内容的嵌入和描述生成基于查询请求的响应结果。从而实现了跨模态信息的有效融合和互相增强，提高了视频理解的精度。

技术关键词

视频分析器多模态生成视频内容文本编码器自然语言重建误差图像关键帧字幕模块重构语义视频编码器视频帧解码人工智能技术

系统为您推荐了相关专利信息

一种元宇宙博物馆的交互系统

交互系统博物馆数字孪生三维重建算法区块链共识算法

一种多模态数据融合的双分支变压器目的地预测方法

多模态数据融合序列特征轨迹图像特征信息变压器模型

一种基于多模态大模型双智能体行驶决策规划方法及系统

决策规划方法多模态交通信号灯生成智能文本

一种边缘-云协同的民航设备智能检测平台

智能检测平台民航设备云端可视化人机交互网络状态监测

一种基于多传感器融合的智能购物车自助支付系统及其实现方法

自助支付系统多传感器融合智能购物车多模态数据融合数据处理模块

一种基于多模态大模型的视频分析处理系统及方法

站点导航

APP 下载