摘要
本发明涉及视频识别技术领域,具体为一种基于时序分割的视频内容结构化拆解分析方法及系统。首先获取视频以及元数据,利用集成时空注意力机制和滑动窗口机制的第一人工智能模型进行时序分割,生成时间片段;利用FFmpeg工具将视频切割成若干视频片段,采用集成了多模态融合和时间戳嵌入的第二人工智能模型提取各片段的文本描述,实现动作与文本的语义对齐;同时,使用FFmpeg提取关键帧生成图片组,并由结合目标检测和跨帧一致性约束的第三人工智能模型进行语义分析,生成动作标签;最终,整合时间片段、关键帧、文本描述和动作标签,生成完整的结构化输出;本发明能够提高对视频内容的识别精度。
技术关键词
人工智能模型
时空注意力机制
滑动窗口机制
关键帧
语义
识别视频片段
图片
分析方法
条件随机场模型
视觉特征
文本
时序
分辨率
标签
动作关系
多模态融合技术
场景变化检测
音频特征
数据