基于高效视听表征学习的弱监督时序动作定位方法

AITNT
正文
推荐专利
基于高效视听表征学习的弱监督时序动作定位方法
申请号:CN202510981115
申请日期:2025-07-16
公开号:CN120877182A
公开日期:2025-10-31
类型:发明专利
摘要
一种基于高效视听表征学习的弱监督时序动作定位方法。该方法构建基于选择性扫描机制如Mamba的状态空间模型框架,用于长视频序列的视听特征建模,通过音频感知光流增强模块融合音频与光流特征生成音频感知光流特征,借助音频感知RGB增强模块融合音频与RGB特征生成音频感知RGB特征,利用音频自感知增强模块交互优化上述特征以实现跨模态协同增强,最后联合优化两类特征输出动作时序定位结果。该方法有效融合音频和视觉特征,高效处理长视频序列,在弱监督时序动作定位任务中实现先进性能。
技术关键词
RGB特征 光流特征 动作定位方法 音频特征 状态空间模型 视听 加权特征 注意力 时序 动作定位系统 多阶段 跨模态 模块 视频 连续系统 生成动作 计算机程序产品 机制
系统为您推荐了相关专利信息
1
一种基于直流母线系统的节能控制系统
直流母线系统 节能控制系统 功率 制动电机 状态空间模型
2
一种基于用户描述及上传材料与判决书进行相似度对比寻找律师的方法
律师 案件 度计算方法 子模块 向量空间模型
3
一种语音交互方法、装置、设备及存储介质
语音识别模型 指令 语音交互方法 文本 页面
4
一种匹配构网型风电场的奇异摄动降阶方法
风电场并网 降阶方法 宽频 矩阵 换流器模块
5
一种用于反对抗系统的逆容积粒子滤波方法
容积粒子滤波 观测噪声 容积卡尔曼滤波 状态更新 电子对抗技术
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号