一种语音识别装置及训练方法、电子设备和存储介质

AITNT
正文
推荐专利
一种语音识别装置及训练方法、电子设备和存储介质
申请号:CN202411746769
申请日期:2024-11-29
公开号:CN119626210B
公开日期:2025-08-08
类型:发明专利
摘要
本公开涉及一种语音识别装置及训练方法、电子设备和存储介质,所述装置包括:语音文本识别模块,接收输入的音频信号,并对所述音频信号进行文本识别,得到所述音频信号中的文本及对应的时间戳;说话人身份信息识别模块,基于音频信号中的声学编码特征,识别所述音频信号中的说话人身份信息,得到时序排列的说话人身份信息序列;说话人转换时间点识别模块,基于音频信号中文本的语义信息,识别所述音频信号中说话人发生变化的时间点,得到说话人转换时间点;整合模块,基于识别到的文本及对应的时间戳、所述说话人身份信息序列、所述说话人转换时间点,确定所述说话人身份信息对应的文本。本公开实施例可提高说话人对应文本识别的在准确率。
技术关键词
说话人身份信息 文本识别 编码特征 语音识别装置 音频 识别模块 说话人语音识别 信号 序列 流式编码器 字符 计算机程序指令 时序 标签 语义 语音识别方法
系统为您推荐了相关专利信息
1
模型生成方法、情绪识别方法、装置、设备及存储介质
情绪识别模型 特征提取模型 神经网络模型 样本 模型生成方法
2
音频修复方法、装置及电子设备
编码向量 样本 序列 人声 子模块
3
基于多模态协同优化的决策方法、装置、设备及介质
多模态协同 跨模态 编码特征 视觉特征 决策方法
4
基于多模态视觉-语言模型的智能眼镜及环境感知方法
环境感知方法 多模态 智能眼镜 摄像头单元 视觉
5
一种基于时空预测的弹性算力调度方法、装置和介质
算力调度方法 卫星云图 多模态特征 混合整数规划 时间卷积网络
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号