一种语音识别装置及训练方法、电子设备和存储介质

正文

推荐专利

申请号：CN202411746769

申请日期：2024-11-29

公开号：CN119626210B

公开日期：2025-08-08

类型：发明专利

摘要

本公开涉及一种语音识别装置及训练方法、电子设备和存储介质，所述装置包括：语音文本识别模块，接收输入的音频信号，并对所述音频信号进行文本识别，得到所述音频信号中的文本及对应的时间戳；说话人身份信息识别模块，基于音频信号中的声学编码特征，识别所述音频信号中的说话人身份信息，得到时序排列的说话人身份信息序列；说话人转换时间点识别模块，基于音频信号中文本的语义信息，识别所述音频信号中说话人发生变化的时间点，得到说话人转换时间点；整合模块，基于识别到的文本及对应的时间戳、所述说话人身份信息序列、所述说话人转换时间点，确定所述说话人身份信息对应的文本。本公开实施例可提高说话人对应文本识别的在准确率。

技术关键词

说话人身份信息文本识别编码特征语音识别装置音频识别模块说话人语音识别信号序列流式编码器字符计算机程序指令时序标签语义语音识别方法

系统为您推荐了相关专利信息

模型生成方法、情绪识别方法、装置、设备及存储介质

情绪识别模型特征提取模型神经网络模型样本模型生成方法

音频修复方法、装置及电子设备

编码向量样本序列人声子模块

基于多模态协同优化的决策方法、装置、设备及介质

多模态协同跨模态编码特征视觉特征决策方法

基于多模态视觉-语言模型的智能眼镜及环境感知方法

环境感知方法多模态智能眼镜摄像头单元视觉

一种基于时空预测的弹性算力调度方法、装置和介质

算力调度方法卫星云图多模态特征混合整数规划时间卷积网络

一种语音识别装置及训练方法、电子设备和存储介质

站点导航

APP 下载