摘要
本发明公开了一种自监督伪标签优化网络的弱监督时序动作定位方法及系统,将训练视频中所有片段划分为若干个类别簇,得到表示全局语义的原子动作特征;将表示全局语义的原子动作特征作为动作表征,将特征提取器提取的视频片段级特征映射为查询向量,并与原子动作特征共同参与注意力计算,生成包含全局上下文信息的增强片段表示;利用增强片段表示的高区分度特性识别不一致区域,通过收集连续两个训练时期生成的伪标签结果执行伪标签纠正,并采用亲和度搜索策略,利用特征相似度判断是否扩展标签范围,生成伪单帧标签yfp,通过一致性损失进行优化,得到定位结果。本发明显著降低了标注成本,有效减少背景干扰,提高动作定位的完整性与精度。
技术关键词
动作定位方法
动作特征
标签
语义
时序
特征提取器
视频
概念
视觉
注意力
动作定位系统
网络
分类器
策略
搜索模块
线性
内存
精度
关系
系统为您推荐了相关专利信息
组合特征向量
神经网络模型
热成像
音频数据处理
统计特征
知识图谱构建方法
大语言模型
医疗器械
三元组
文本
文本生成方法
BERT模型
预训练模型
文本生成装置
语义特征提取