一种基于多模态视觉大模型的视频态势标签构建方法

正文

推荐专利

申请号：CN202510907612

申请日期：2025-07-02

公开号：CN120747825A

公开日期：2025-10-03

类型：发明专利

摘要

本发明属于视频处理技术领域，具体涉及一种基于多模态视觉大模型的视频态势标签构建方法，包括以下步骤：S1：获取待识别视频，并对所述待识别视频进行预处理；S2：将所述视觉特征、文本描述特征及音频特征分别进行特征转换得到可识别视觉文本序列、文本描述序列和音频文本序列，所述视觉文本序列包含时间序列；S3：构建和训练识别模型；S4：将所述视觉文本序列、文本描述序列和音频文本序列输入预设置的识别模型识别所述待识别视频在连续时间内所对应的连续事件发展趋势，从数据预处理阶段到模型构建再到具体的待识别视频的视频帧处理阶段的相互佐证，实现了从视频数据获取到事件趋势分析的精准化与智能化。

技术关键词

标签构建方法事件发展趋势文本多模态音频特征序列训练识别模型关键帧金字塔视频帧匹配误差邻域时空注意力机制融合视觉特征 LK光流法编码模块损失函数优化

一种基于多模态视觉大模型的视频态势标签构建方法

站点导航

APP 下载