摘要
本申请涉及一种通信场景下基于通道注意力的说话人识别方法。所述方法包括:构建说话人识别模型,该模型包括依次连接的表征提取主干网络与说话人分类网络;将基于跨网络层特征聚合的通道注意力机制,以多个通道注意力网络模块的形式嵌入到表征提取主干网络中,该通道注意力网络模块包括可学习字典编码单元和信息聚合单元;对嵌入有通道注意力网络模块的说话人识别模型进行优化训练,并采用训练好的说话人识别模型执行通信场景下的说话人识别任务。本方法能够通过多层次地表示隐层特征信息,精准感知网络中各通道特征重要性,从而更加高效地进行特征选择和差异化建模,对于提升说话人表征的区分性与说话人识别的准确度具有重要价值。
技术关键词
说话人识别模型
声学特征
学习字典
说话人识别方法
编码向量
网络模块
分类网络
通道注意力机制
校准
残差网络
深度学习框架
工具包
矩阵
场景