基于高效视听表征学习的弱监督时序动作定位方法

正文

推荐专利

申请号：CN202510981115

申请日期：2025-07-16

公开号：CN120877182A

公开日期：2025-10-31

类型：发明专利

摘要

一种基于高效视听表征学习的弱监督时序动作定位方法。该方法构建基于选择性扫描机制如Mamba的状态空间模型框架，用于长视频序列的视听特征建模，通过音频感知光流增强模块融合音频与光流特征生成音频感知光流特征，借助音频感知RGB增强模块融合音频与RGB特征生成音频感知RGB特征，利用音频自感知增强模块交互优化上述特征以实现跨模态协同增强，最后联合优化两类特征输出动作时序定位结果。该方法有效融合音频和视觉特征，高效处理长视频序列，在弱监督时序动作定位任务中实现先进性能。

技术关键词

RGB特征光流特征动作定位方法音频特征状态空间模型视听加权特征注意力时序动作定位系统多阶段跨模态模块视频连续系统生成动作计算机程序产品机制

系统为您推荐了相关专利信息

一种基于直流母线系统的节能控制系统

直流母线系统节能控制系统功率制动电机状态空间模型

一种基于用户描述及上传材料与判决书进行相似度对比寻找律师的方法

律师案件度计算方法子模块向量空间模型

一种语音交互方法、装置、设备及存储介质

语音识别模型指令语音交互方法文本页面

一种匹配构网型风电场的奇异摄动降阶方法

风电场并网降阶方法宽频矩阵换流器模块

一种用于反对抗系统的逆容积粒子滤波方法

容积粒子滤波观测噪声容积卡尔曼滤波状态更新电子对抗技术

基于高效视听表征学习的弱监督时序动作定位方法

站点导航

APP 下载