一种方言语音识别与转换方法及装置

AITNT
正文
推荐专利
一种方言语音识别与转换方法及装置
申请号:CN202511103791
申请日期:2025-08-07
公开号:CN120600003B
公开日期:2025-10-10
类型:发明专利
摘要
本申请提供一种方言语音识别与转换方法及装置,该方法包括获取方言语音输入数据,利用Conformer模型提取局部特征和全局依赖关系,生成音频特征序列。该序列输入共享GRU编码器,生成隐藏状态序列,并行传递至方言文本与普通话文本的CTC解码器。构建多任务学习框架关联这些组件,控制其参数更新。通过该框架,高效提取方言特征,并行生成方言与普通话文本。本申请结合Conformer与CTC‑GRU模型优势,实现了高准确率、强泛化与鲁棒性的方言语音识别与转换。
技术关键词
文本 转换方法 编码器 音频特征 多任务 焦点损失函数 语音 解码器执行 序列 框架 GRU模型 数据 关系 参数 输出模块 鲁棒性 控制模块
系统为您推荐了相关专利信息
1
一种基于互联网热点的视频自动剪辑系统
剪辑系统 视频 大语言模型 子模块 热点
2
一种病理图像视觉定位的方法及系统、设备、存储介质
融合多模态特征 视觉特征 文本 识别特征 病理切片图像
3
一种基于大语言模型的工厂文档信息检索方法及装置
大语言模型 信息检索方法 文本 无监督学习方法 信息检索装置
4
一种智能护理记录生成方法及装置
语音特征 监督学习模型 文本 说话人模型 语义特征
5
基于语言感知与特征融合的多模态大模型对齐方法和系统
图像块特征 对齐方法 文本 注意力 三元组
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号