多语言语音识别方法、模型、电子设备、存储介质和程序产品

正文

推荐专利

申请号：CN202411937490

申请日期：2024-12-26

公开号：CN119724158B

公开日期：2025-11-28

类型：发明专利

摘要

本申请公开一种多语言语音识别方法，多语言语音识别模型包括：编码器、语种分类模型、CTC模块和解码器；所述方法包括：获取待识别音频的声学特征输入至所述编码器得到包含了声学特征局部信息和声学特征全局信息的编码器输出结果；语种分类模型对所述编码器输出结果进行预设处理得到语种分类结果；CTC模块结合加权有限状态转换机，通过前缀束搜索算法将编码器输出结果映射到流式nbest识别结果；解码器根据流式nbest识别结果对编码器输出结果进行重打分。本申请多语言语音识别模型仅共享了底层的编码器，顶层的语种分类模型、CTC模块和解码器独立。通过共享的底层参数和重打分流程减少语音识别的混淆不同语种的同音字问题，并提升语种分类准确度。

技术关键词

多语言语音识别声学特征编码器注意力解码器卷积模块网络模块转换机搜索算法指令计算机程序产品音频电子设备处理器通信可读存储介质存储器

系统为您推荐了相关专利信息

一种回声消除算法

回声消除算法对齐模块降噪模型状态检测功能交叉注意力机制

基于萤火虫算法优化的灰色注意力网络物流作业量预测方法及装置

萤火虫算法优化网络物流灰色系统模型灰色关联分析方法注意力机制

一种数字人直播方法、装置、设备及存储介质

关键词直播方法视频帧生成文案生成数字人

面向正负样本不平衡的医疗知识库语义匹配方法及装置

语义匹配方法焦点损失函数样本意图主题

一种基于互联网的患者腿部术后智能个性化康复训练方法

患者康复训练康复训练方法训练特征动作检测模型医疗知识图谱

多语言语音识别方法、模型、电子设备、存储介质和程序产品

站点导航

APP 下载