摘要
本发明属于人工智能技术领域,具体涉及一种基于多模态大模型的视频分析处理系统及方法,所述方法包括:多模态控制大模型接收用户输入的通过自然语言描述所需完成的任务,对用户的输入进行语义分析,提取任务信息,将涉及视频理解的任务分解为子任务发送至视频理解模块;视频理解模块接收任务所需的视频或视频片段,执行子任务对视频进行分析,生成视频内容的嵌入和描述输入多模态控制大模型;多模态控制大模型接收到用户查询请求时,将用户的查询任务解析为可执行的子任务映射到视频理解的任务上,基于视频理解大模型生成的视频内容的嵌入和描述生成基于查询请求的响应结果。从而实现了跨模态信息的有效融合和互相增强,提高了视频理解的精度。
技术关键词
视频分析器
多模态
生成视频内容
文本编码器
自然语言
重建误差
图像
关键帧
字幕
模块
重构
语义
视频编码器
视频帧
解码
人工智能技术
系统为您推荐了相关专利信息
交互系统
博物馆
数字孪生
三维重建算法
区块链共识算法
多模态数据融合
序列特征
轨迹
图像特征信息
变压器模型
智能检测平台
民航设备
云端
可视化人机交互
网络状态监测
自助支付系统
多传感器融合
智能购物车
多模态数据融合
数据处理模块