摘要
本发明涉及人工智能技术领域,提供一种基于神经正切核的视频场景理解方法、装置、设备及介质,应用于金融、医疗健康养老等业务场景中,能够对目标视频进行标准化处理,以减少数据差异造成的不利影响;对待处理视频进行特征提取,以捕捉多模态特征;根据多模态特征计算神经正切核矩阵,根据神经正切核矩阵及配置阈值进行谱剪枝,根据剩余参数进行低秩重构,并根据低秩因子矩阵对多模态特征进行特征融合,能够动态优化融合权重矩阵,在压缩参数量的同时维持时空特征的表达能力,从而降低模型的内存开销和计算复杂度;利用融合特征执行与视频场景理解指令对应的视频场景理解任务,并生成视频场景理解报告,结合神经正切核实现了高效的视频场景理解。
技术关键词
视频场景理解
多模态特征
融合特征
矩阵
特征值
因子
偏置特征
二维卷积神经网络
三维卷积神经网络
变换特征
计算机设备
参数
动作识别模型
指令
时序特征
报告
重构
可读存储介质
人工智能技术
系统为您推荐了相关专利信息
智能筛选方法
深度特征提取
多尺度
融合特征
分析模块
多角度摄像装置
实时视频图像
煤矿输送带
图像去噪算法
融合特征