摘要
本申请实施例了提供一种视频处理方法、装置、计算机设备、计算机可读存储介质、计算机程序产品,涉及到多媒体技术领域。该视频处理方法包括:获取目标视频数据,所述目标视频数据包括图像数据、字幕数据和弹幕数据;将所述目标视频数据输入到预先训练好的视频理解模型中,通过所述视频理解模型输出针对所述目标视频数据的理解结果,所述理解结果包括视频分析、标识和/或识别;其中,所述视频理解模型通过多组样本视频数据训练得到;每组所述样本视频数据包括样本视频、所述样本视频对应的样本字幕信息、所述样本视频对应的样本弹幕信息。本申请实施例的技术方案可以更全面地捕捉视频内容的复杂语义,并显著提升视频内容识别的准确性与泛化能力。
技术关键词
弹幕数据
样本
视觉特征
文本
字幕
视频分析
图像
计算机程序产品
交叉注意力机制
可读存储介质
计算机设备
多模态
处理器通信
指令
输入模块
标识
系统为您推荐了相关专利信息
居民
指标
梯度提升决策树
GBDT模型
线性回归模型
电池故障诊断方法
故障诊断模型
矩阵
计算机装置
电池故障诊断技术