摘要
本发明属于视频处理技术领域,具体涉及一种基于多模态视觉大模型的视频态势标签构建方法,包括以下步骤:S1:获取待识别视频,并对所述待识别视频进行预处理;S2:将所述视觉特征、文本描述特征及音频特征分别进行特征转换得到可识别视觉文本序列、文本描述序列和音频文本序列,所述视觉文本序列包含时间序列;S3:构建和训练识别模型;S4:将所述视觉文本序列、文本描述序列和音频文本序列输入预设置的识别模型识别所述待识别视频在连续时间内所对应的连续事件发展趋势,从数据预处理阶段到模型构建再到具体的待识别视频的视频帧处理阶段的相互佐证,实现了从视频数据获取到事件趋势分析的精准化与智能化。
技术关键词
标签构建方法
事件发展趋势
文本
多模态
音频特征
序列
训练识别模型
关键帧
金字塔
视频帧
匹配误差
邻域
时空注意力机制
融合视觉特征
LK光流法
编码模块
损失函数优化