一种基于多模态大模型的结构化视频理解方法、装置、计算机设备及可读存储介质

正文

推荐专利

申请号：CN202411501242

申请日期：2024-10-25

公开号：CN119478769A

公开日期：2025-02-18

类型：发明专利

摘要

本发明公开了一种基于多模态大模型的结构化视频理解方法、装置、计算机设备及可读存储介质，包括：首先获取用户的待处理视频与描述需求的交互文本，接着对交互文本提取关键词并结合第一视频多模态大模型确定聚焦实体，再将视频输入第二视频多模态大模型以得到聚焦实体的聚焦时空场景图，最后依据此场景图对交互文本进行对话反馈，实现高效、准确的视频内容理解并满足用户需求。

技术关键词

多模态关键词视频理解方法文本实体计算机设备场景对话生成模型可读存储介质关系标识符处理器节点指令时序格式模块存储器

系统为您推荐了相关专利信息

一种电力物资供应主体画像生成方法及装置

动态实体画像生成方法图谱风险传播模型关系

跨区域仓储网络优化方法、装置、电子设备及存储介质

网络优化方法仓库混合整数规划模型染色体产品交易数据

一种大模型的客服对话质检方法、系统及装置

语音对话数据质检方法客服文本标签

一种面向交通场景的多模态点云语义分割方法以及装置

面向交通场景点云语义分割方法三维点云数据融合特征多模态特征融合

基于人员行为识别的有限空间安全监控系统

空间安全监控时域统计特征关节点人体姿势识别热成像传感器

一种基于多模态大模型的结构化视频理解方法、装置、计算机设备及可读存储介质

站点导航

APP 下载