摘要
一种基于高效视听表征学习的弱监督时序动作定位方法。该方法构建基于选择性扫描机制如Mamba的状态空间模型框架,用于长视频序列的视听特征建模,通过音频感知光流增强模块融合音频与光流特征生成音频感知光流特征,借助音频感知RGB增强模块融合音频与RGB特征生成音频感知RGB特征,利用音频自感知增强模块交互优化上述特征以实现跨模态协同增强,最后联合优化两类特征输出动作时序定位结果。该方法有效融合音频和视觉特征,高效处理长视频序列,在弱监督时序动作定位任务中实现先进性能。
技术关键词
RGB特征
光流特征
动作定位方法
音频特征
状态空间模型
视听
加权特征
注意力
时序
动作定位系统
多阶段
跨模态
模块
视频
连续系统
生成动作
计算机程序产品
机制
系统为您推荐了相关专利信息
直流母线系统
节能控制系统
功率
制动电机
状态空间模型
容积粒子滤波
观测噪声
容积卡尔曼滤波
状态更新
电子对抗技术