一种方言语音识别方法和系统

正文

推荐专利

一种方言语音识别方法和系统

申请号：CN202510627552

申请日期：2025-05-15

公开号：CN120431909A

公开日期：2025-08-05

类型：发明专利

摘要

本发明公开了一种方言语音识别方法和系统，涉及人工智能技术领域。该方法包括：从多个网络数据源获取目标区域方言类的短视频和音频；对有字幕的短视频进行字幕检测，得到第一音频文本对；针对无字幕的短视频和无字幕的音频，将无字幕的短视频转换为音频，对所有无字幕的音频进行语音识别，确定第二音频文本对；根据有字幕的音频，生成第三音频文本对；并将第一音频文本对、第二音频文本对和第三音频文本对，确定为样本集；通过样本集，对基础Whisper模型进行LoRA微调，得到LoRA微调模型，并将LoRA微调模型和基础Whisper模型进行合并，得到方言语音识别模型；通过方言语音识别模型对待识别语音进行识别，得到待识别语音的文本。该方法能够准确识别目标区域的方言。

技术关键词

语音识别模型音频字幕方言语音识别方法语音识别模块图像模型训练模块样本应用程序编程接口文本识别方法风格语音识别系统资源基础人工智能技术短视频服务器

系统为您推荐了相关专利信息

非接触式音频处理方法及系统、可穿戴设备、存储介质

频域特征音频输入神经网络模型可穿戴设备非接触式

一种互动内容识别方法及相关装置

内容识别方法视频风险计算机存储介质对象

一种基于数据大模型的智能语义分析系统及方法

文本语义分析方法词语标记智能语义分析

智能座舱控制方法及相关设备

智能座舱音频车外噪声参数车辆

一种语音客服方法、装置及存储介质

词语客服方法语义语音文本

一种方言语音识别方法和系统

站点导航

APP 下载