摘要
本发明公开了一种基于多模态大模型的结构化视频理解方法、装置、计算机设备及可读存储介质,包括:首先获取用户的待处理视频与描述需求的交互文本,接着对交互文本提取关键词并结合第一视频多模态大模型确定聚焦实体,再将视频输入第二视频多模态大模型以得到聚焦实体的聚焦时空场景图,最后依据此场景图对交互文本进行对话反馈,实现高效、准确的视频内容理解并满足用户需求。
技术关键词
多模态
关键词
视频理解方法
文本
实体
计算机设备
场景
对话生成模型
可读存储介质
关系
标识符
处理器
节点
指令
时序
格式
模块
存储器
系统为您推荐了相关专利信息
网络优化方法
仓库
混合整数规划模型
染色体
产品交易数据
面向交通场景
点云语义分割方法
三维点云数据
融合特征
多模态特征融合
空间安全监控
时域统计特征
关节点
人体姿势识别
热成像传感器