摘要
以球员为中心的身份感知篮球视频字幕生成方法属于视频分析与理解领域。传统方法难以生成包含球员身份和细粒度动作的字幕。本发明首先收集篮球比赛数据,包括事件文字描述和视频,并为每个视频片段标注关键球员的坐标框。基于坐标框裁剪球员序列,组织成以球员为中心的序列片段集合,并训练球员身份识别网络提取球员视觉特征和身份信息。利用交叉注意力机制实现视频与球员特征的双向增强,并通过可学习查询向量自适应学习视频视觉上下文信息。最终,将上下文信息与多模态特征拼接作为大语言模型的输入,引导生成包含球员身份的文本描述。本发明构建了球员身份感知的篮球视频字幕数据集NBA‑Identity。
技术关键词
球员
交叉注意力机制
视频字幕生成方法
视觉特征
矩阵
多层感知器
大语言模型
身份
序列
文本
篮球
参数
前馈神经网络
语义
视频分析
线性
系统为您推荐了相关专利信息
振动控制系统
可靠度分析方法
高超声速飞行器
矩阵
优化控制方法
物体材质识别方法
深度学习模型训练
特征提取器
加速度
网格
协方差矩阵
机器学习模型
四维变分同化系统
动态
扰动方法