摘要
本申请涉及音频识别及分析技术领域,尤其涉及一种融合空间表征的说话人日志分析方法、系统及存储介质,包括获取多通道音频及其对应单通道音频,对单通道音频进行语音活动检测确定有效语音片段;从有效语音片段中提取声纹表征向量;将多通道音频经处理后输入至空间表征提取模型,模型输出空间表征向量;根据语音活动检测结果,对获得的空间表征向量进行时间对齐和切分,得到切分后的空间表征向量;将声纹表征向量与切分后的空间表征向量进行特征拼接,形成表征融合向量;对表征融合向量进行聚类,根据聚类分组结果生成带时间戳的说话人日志。本申请能够将原始多通道音频转化为低维空间表征向量,进而与声纹表征向量融合实现高精度说话人日志任务。
技术关键词
日志分析方法
语音活动检测
音频
多通道
带时间
特征提取模块
频谱特征
日志分析系统
二维卷积网络
时序特征
波束
短时傅里叶变换
神经网络架构
损失函数优化
无监督聚类
门控循环单元
系统为您推荐了相关专利信息
违规检测模型
多模态特征
音视频
特征提取网络
音频特征
多模态情感分析
智能健康
交互系统
穿戴设备
心理状态评估
音频播放方法
粒子
车内扬声器
车辆
音频波形数据
灯光驱动电路
音乐特征提取
音频
氛围灯电路
麦克风拾音
审核管理系统
深度学习分类
关键帧
多模态
隐马尔可夫模型