摘要
本发明公开了一种基于渐进式优化网络的开放词汇点监督时序动作定位方法,属于视频理解领域。首先通过语义引导早期增强对视觉特征进行初步筛选,从而抑制背景噪声干扰,提升类别相关特征的表达能力。随后,利用上下文‑语义后期增强进一步建模动作在不同时间段之间的语义关联,强化视觉表达的类别辨识度,促使模型挖掘更多不受约束的新类提议。最后,结合伪标签约束优化动作边界,实现对边界位置的精细建模,在提升检测精度的同时增强模型的泛化能力。该方法结合渐进式优化建模策略,融合视觉与语义特征构建统一的渐进优化网络,旨在减少标记依赖的同时提升动作定位性能。所述方法在智能监控、异常行为检测、视频问答等任务中具备广泛的应用前景。
技术关键词
动作定位方法
视觉特征
特征提取模块
视频
语义特征
抑制背景噪声
注意力机制
标签
融合视觉
时间段
文本
系统模块
网络优化
时序特征
多阈值
系统为您推荐了相关专利信息
多媒体显示设备
教学培训系统
情景
人机交互设备
界面
图像检索方法
多模态
图像检索系统
图像特征提取
索引算法