一种基于多模态大模型的视频分析处理系统及方法

AITNT
正文
推荐专利
一种基于多模态大模型的视频分析处理系统及方法
申请号:CN202411636948
申请日期:2024-11-15
公开号:CN119540831B
公开日期:2025-10-24
类型:发明专利
摘要
本发明属于人工智能技术领域,具体涉及一种基于多模态大模型的视频分析处理系统及方法,所述方法包括:多模态控制大模型接收用户输入的通过自然语言描述所需完成的任务,对用户的输入进行语义分析,提取任务信息,将涉及视频理解的任务分解为子任务发送至视频理解模块;视频理解模块接收任务所需的视频或视频片段,执行子任务对视频进行分析,生成视频内容的嵌入和描述输入多模态控制大模型;多模态控制大模型接收到用户查询请求时,将用户的查询任务解析为可执行的子任务映射到视频理解的任务上,基于视频理解大模型生成的视频内容的嵌入和描述生成基于查询请求的响应结果。从而实现了跨模态信息的有效融合和互相增强,提高了视频理解的精度。
技术关键词
视频分析器 多模态 生成视频内容 文本编码器 自然语言 重建误差 图像 关键帧 字幕 模块 重构 语义 视频编码器 视频帧 解码 人工智能技术
系统为您推荐了相关专利信息
1
一种元宇宙博物馆的交互系统
交互系统 博物馆 数字孪生 三维重建算法 区块链共识算法
2
一种多模态数据融合的双分支变压器目的地预测方法
多模态数据融合 序列特征 轨迹 图像特征信息 变压器模型
3
一种基于多模态大模型双智能体行驶决策规划方法及系统
决策规划方法 多模态 交通信号灯 生成智能 文本
4
一种边缘-云协同的民航设备智能检测平台
智能检测平台 民航设备 云端 可视化人机交互 网络状态监测
5
一种基于多传感器融合的智能购物车自助支付系统及其实现方法
自助支付系统 多传感器融合 智能购物车 多模态数据融合 数据处理模块
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号