摘要
本公开涉及一种语音识别装置及训练方法、电子设备和存储介质,所述装置包括:语音文本识别模块,接收输入的音频信号,并对所述音频信号进行文本识别,得到所述音频信号中的文本及对应的时间戳;说话人身份信息识别模块,基于音频信号中的声学编码特征,识别所述音频信号中的说话人身份信息,得到时序排列的说话人身份信息序列;说话人转换时间点识别模块,基于音频信号中文本的语义信息,识别所述音频信号中说话人发生变化的时间点,得到说话人转换时间点;整合模块,基于识别到的文本及对应的时间戳、所述说话人身份信息序列、所述说话人转换时间点,确定所述说话人身份信息对应的文本。本公开实施例可提高说话人对应文本识别的在准确率。
技术关键词
说话人身份信息
文本识别
编码特征
语音识别装置
音频
识别模块
说话人语音识别
信号
序列
流式编码器
字符
计算机程序指令
时序
标签
语义
语音识别方法
系统为您推荐了相关专利信息
情绪识别模型
特征提取模型
神经网络模型
样本
模型生成方法
算力调度方法
卫星云图
多模态特征
混合整数规划
时间卷积网络