摘要
本发明公开了一种方言语音识别方法和系统,涉及人工智能技术领域。该方法包括:从多个网络数据源获取目标区域方言类的短视频和音频;对有字幕的短视频进行字幕检测,得到第一音频文本对;针对无字幕的短视频和无字幕的音频,将无字幕的短视频转换为音频,对所有无字幕的音频进行语音识别,确定第二音频文本对;根据有字幕的音频,生成第三音频文本对;并将第一音频文本对、第二音频文本对和第三音频文本对,确定为样本集;通过样本集,对基础Whisper模型进行LoRA微调,得到LoRA微调模型,并将LoRA微调模型和基础Whisper模型进行合并,得到方言语音识别模型;通过方言语音识别模型对待识别语音进行识别,得到待识别语音的文本。该方法能够准确识别目标区域的方言。
技术关键词
语音识别模型
音频
字幕
方言语音识别方法
语音识别模块
图像
模型训练模块
样本
应用程序编程接口
文本识别方法
风格
语音识别系统
资源
基础
人工智能技术
短视频
服务器
系统为您推荐了相关专利信息
频域特征
音频
输入神经网络模型
可穿戴设备
非接触式