一种基于多模态大模型的结构化视频理解方法、装置、计算机设备及可读存储介质

AITNT
正文
推荐专利
一种基于多模态大模型的结构化视频理解方法、装置、计算机设备及可读存储介质
申请号:CN202411501242
申请日期:2024-10-25
公开号:CN119478769A
公开日期:2025-02-18
类型:发明专利
摘要
本发明公开了一种基于多模态大模型的结构化视频理解方法、装置、计算机设备及可读存储介质,包括:首先获取用户的待处理视频与描述需求的交互文本,接着对交互文本提取关键词并结合第一视频多模态大模型确定聚焦实体,再将视频输入第二视频多模态大模型以得到聚焦实体的聚焦时空场景图,最后依据此场景图对交互文本进行对话反馈,实现高效、准确的视频内容理解并满足用户需求。
技术关键词
多模态 关键词 视频理解方法 文本 实体 计算机设备 场景 对话生成模型 可读存储介质 关系 标识符 处理器 节点 指令 时序 格式 模块 存储器
系统为您推荐了相关专利信息
1
一种电力物资供应主体画像生成方法及装置
动态实体 画像生成方法 图谱 风险传播模型 关系
2
跨区域仓储网络优化方法、装置、电子设备及存储介质
网络优化方法 仓库 混合整数规划模型 染色体 产品交易数据
3
一种大模型的客服对话质检方法、系统及装置
语音对话数据 质检方法 客服 文本 标签
4
一种面向交通场景的多模态点云语义分割方法以及装置
面向交通场景 点云语义分割方法 三维点云数据 融合特征 多模态特征融合
5
基于人员行为识别的有限空间安全监控系统
空间安全监控 时域统计特征 关节点 人体姿势识别 热成像传感器
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号