摘要
本发明提出一种基于大模型双模式推理的知识增强型体育视频理解方法,属于视频理解领域,首先获取需要提问的体育视频以及问题文本,将体育视频、问题文本与提示词输入反应式推理智能体,反应式推理智能体根据问题文本与提示词对问题进行分类,若问题属于简单问题,则反应式推理智能体根据输入的体育视频对问题进行回答;若问题属于复杂问题,则通过深思式推理智能体进行回答,深思式推理智能体由动态运动分割器、关键片段选择器以及基于体育知识图谱的细粒度匹配器组成。本发明通过创新性地引入双模式推理系统,充分考虑了体育视频的动态性、领域特异性以及用户提问的多样性和复杂性,显著提升了(多模态)大语言模型在体育视频理解任务中的表现。
技术关键词
体育视频理解
双模式
文本
动态
匹配器
滑动窗口
分割器
图谱
多模态
运动
解码模块
匹配模块
强度
推理系统
大语言模型
层级
图像
系统为您推荐了相关专利信息
数据查询请求
数据查询方法
数据标签
电子设备
文本
深度学习优化
动态资源调度器
神经网络结构
多模态
动态资源分配
车间物流系统
数字孪生模型
分布式数据中心
椭圆曲线加密算法
图纸