摘要
一种基于CLIP辅助的跨视图视听增强的无监督时序动作定位方法,包括:从输入视频中提取音频特征、分类预训练(CBP)视觉特征及视觉语言预训练(VLP)特征;通过音视频交叉注意力融合模块对音频与CBP特征进行多阶段迭代优化,结合交叉注意力权重计算与稠密跳跃连接,生成保留模态特性的视听融合特征;利用跨视图协作范式对CBP与VLP特征执行多模态注意力机制,生成增强的双视图特征;进一步引入自监督学习机制,对融合特征施加特征去相关约束,对增强视图特征实施跨视图实例区分约束以强化表示判别力,联合优化模型;最终输出高精度动作时序定位结果。本发明融合多模态信息并协同自监督学习,显著提升动作边界定位完整性与音频相关动作的识别鲁棒性。
技术关键词
动作定位方法
多模态注意力
融合特征
视听
多阶段
音频特征提取
融合多模态信息
特征提取器
加权特征
高精度动作
时序
音视频
计算机程序产品
视觉特征
机制
网络结构
编码