一种基于CLIP辅助的跨视图视听增强的无监督时序动作定位方法

正文

推荐专利

申请号：CN202510981112

申请日期：2025-07-16

公开号：CN120877181A

公开日期：2025-10-31

类型：发明专利

摘要

一种基于CLIP辅助的跨视图视听增强的无监督时序动作定位方法，包括：从输入视频中提取音频特征、分类预训练(CBP)视觉特征及视觉语言预训练(VLP)特征；通过音视频交叉注意力融合模块对音频与CBP特征进行多阶段迭代优化，结合交叉注意力权重计算与稠密跳跃连接，生成保留模态特性的视听融合特征；利用跨视图协作范式对CBP与VLP特征执行多模态注意力机制，生成增强的双视图特征；进一步引入自监督学习机制，对融合特征施加特征去相关约束，对增强视图特征实施跨视图实例区分约束以强化表示判别力，联合优化模型；最终输出高精度动作时序定位结果。本发明融合多模态信息并协同自监督学习，显著提升动作边界定位完整性与音频相关动作的识别鲁棒性。

技术关键词

动作定位方法多模态注意力融合特征视听多阶段音频特征提取融合多模态信息特征提取器加权特征高精度动作时序音视频计算机程序产品视觉特征机制网络结构编码

一种基于CLIP辅助的跨视图视听增强的无监督时序动作定位方法

站点导航

APP 下载