多语言语音识别方法、模型、电子设备、存储介质和程序产品

AITNT
正文
推荐专利
多语言语音识别方法、模型、电子设备、存储介质和程序产品
申请号:CN202411937490
申请日期:2024-12-26
公开号:CN119724158B
公开日期:2025-11-28
类型:发明专利
摘要
本申请公开一种多语言语音识别方法,多语言语音识别模型包括:编码器、语种分类模型、CTC模块和解码器;所述方法包括:获取待识别音频的声学特征输入至所述编码器得到包含了声学特征局部信息和声学特征全局信息的编码器输出结果;语种分类模型对所述编码器输出结果进行预设处理得到语种分类结果;CTC模块结合加权有限状态转换机,通过前缀束搜索算法将编码器输出结果映射到流式nbest识别结果;解码器根据流式nbest识别结果对编码器输出结果进行重打分。本申请多语言语音识别模型仅共享了底层的编码器,顶层的语种分类模型、CTC模块和解码器独立。通过共享的底层参数和重打分流程减少语音识别的混淆不同语种的同音字问题,并提升语种分类准确度。
技术关键词
多语言语音识别 声学特征 编码器 注意力 解码器 卷积模块 网络模块 转换机 搜索算法 指令 计算机程序产品 音频 电子设备 处理器通信 可读存储介质 存储器
系统为您推荐了相关专利信息
1
一种回声消除算法
回声消除算法 对齐模块 降噪模型 状态检测功能 交叉注意力机制
2
基于萤火虫算法优化的灰色注意力网络物流作业量预测方法及装置
萤火虫算法优化 网络物流 灰色系统模型 灰色关联分析方法 注意力机制
3
一种数字人直播方法、装置、设备及存储介质
关键词 直播方法 视频帧 生成文案 生成数字人
4
面向正负样本不平衡的医疗知识库语义匹配方法及装置
语义匹配方法 焦点损失函数 样本 意图 主题
5
一种基于互联网的患者腿部术后智能个性化康复训练方法
患者康复训练 康复训练方法 训练特征 动作检测模型 医疗知识图谱
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号