一种方言语音识别与转换方法及装置

正文

推荐专利

一种方言语音识别与转换方法及装置

申请号：CN202511103791

申请日期：2025-08-07

公开号：CN120600003B

公开日期：2025-10-10

类型：发明专利

摘要

本申请提供一种方言语音识别与转换方法及装置，该方法包括获取方言语音输入数据，利用Conformer模型提取局部特征和全局依赖关系，生成音频特征序列。该序列输入共享GRU编码器，生成隐藏状态序列，并行传递至方言文本与普通话文本的CTC解码器。构建多任务学习框架关联这些组件，控制其参数更新。通过该框架，高效提取方言特征，并行生成方言与普通话文本。本申请结合Conformer与CTC‑GRU模型优势，实现了高准确率、强泛化与鲁棒性的方言语音识别与转换。

技术关键词

文本转换方法编码器音频特征多任务焦点损失函数语音解码器执行序列框架 GRU模型数据关系参数输出模块鲁棒性控制模块

系统为您推荐了相关专利信息

一种基于互联网热点的视频自动剪辑系统

剪辑系统视频大语言模型子模块热点

一种病理图像视觉定位的方法及系统、设备、存储介质

融合多模态特征视觉特征文本识别特征病理切片图像

一种基于大语言模型的工厂文档信息检索方法及装置

大语言模型信息检索方法文本无监督学习方法信息检索装置

一种智能护理记录生成方法及装置

语音特征监督学习模型文本说话人模型语义特征

基于语言感知与特征融合的多模态大模型对齐方法和系统

图像块特征对齐方法文本注意力三元组

一种方言语音识别与转换方法及装置

站点导航

APP 下载