摘要
本发明公开了一种基于视听融合的机器人室内易混淆行为类识别方法,使用视频在空间分布上的信息、时间差分上的特征信息以及音频中的类别信息对视频中的行为类进行整体识别。在音频信息的处理上,直接使用膨胀因果卷积处理原始音频信息,从而避免音频转化为其它信息格式过程中的信息损失。考虑到行为特征在视觉、声音上是不均匀分布的,本发明在解码器中引入了类别自适应的特征融合网络。融合网络通过引入类别混淆表构建了损失函数形成了自适应的训练范式。本发明使用深度网络对现有行为识别视频数据滤除杂音,并构建了室内场景下针对视觉易混淆行为的视频数据集,能够训练出收敛的视听融合的行为识别模型。
技术关键词
类识别方法
支路
采样率
视听
机器人
视觉特征
音频采样
识别视频数据
残差神经网络
特征融合网络
切片
分辨率
元素
图像块
系统为您推荐了相关专利信息
双自由度旋转
外骨骼机器人
助力臂组件
肘关节
转接件
控制中心
智能机器人
活体检测模块
音视频
声纹检测模块
机器人腿部结构
直线驱动模组
交叉滚子轴承
压紧法兰
俯仰电机
图像采集控制
智能机器人
视觉图像采集装置
序列
实体