一种基于CLIP辅助的跨视图视听增强的无监督时序动作定位方法

AITNT
正文
推荐专利
一种基于CLIP辅助的跨视图视听增强的无监督时序动作定位方法
申请号:CN202510981112
申请日期:2025-07-16
公开号:CN120877181A
公开日期:2025-10-31
类型:发明专利
摘要
一种基于CLIP辅助的跨视图视听增强的无监督时序动作定位方法,包括:从输入视频中提取音频特征、分类预训练(CBP)视觉特征及视觉语言预训练(VLP)特征;通过音视频交叉注意力融合模块对音频与CBP特征进行多阶段迭代优化,结合交叉注意力权重计算与稠密跳跃连接,生成保留模态特性的视听融合特征;利用跨视图协作范式对CBP与VLP特征执行多模态注意力机制,生成增强的双视图特征;进一步引入自监督学习机制,对融合特征施加特征去相关约束,对增强视图特征实施跨视图实例区分约束以强化表示判别力,联合优化模型;最终输出高精度动作时序定位结果。本发明融合多模态信息并协同自监督学习,显著提升动作边界定位完整性与音频相关动作的识别鲁棒性。
技术关键词
动作定位方法 多模态注意力 融合特征 视听 多阶段 音频特征提取 融合多模态信息 特征提取器 加权特征 高精度动作 时序 音视频 计算机程序产品 视觉特征 机制 网络结构 编码
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号