一种方言语音识别方法和系统

AITNT
正文
推荐专利
一种方言语音识别方法和系统
申请号:CN202510627552
申请日期:2025-05-15
公开号:CN120431909A
公开日期:2025-08-05
类型:发明专利
摘要
本发明公开了一种方言语音识别方法和系统,涉及人工智能技术领域。该方法包括:从多个网络数据源获取目标区域方言类的短视频和音频;对有字幕的短视频进行字幕检测,得到第一音频文本对;针对无字幕的短视频和无字幕的音频,将无字幕的短视频转换为音频,对所有无字幕的音频进行语音识别,确定第二音频文本对;根据有字幕的音频,生成第三音频文本对;并将第一音频文本对、第二音频文本对和第三音频文本对,确定为样本集;通过样本集,对基础Whisper模型进行LoRA微调,得到LoRA微调模型,并将LoRA微调模型和基础Whisper模型进行合并,得到方言语音识别模型;通过方言语音识别模型对待识别语音进行识别,得到待识别语音的文本。该方法能够准确识别目标区域的方言。
技术关键词
语音识别模型 音频 字幕 方言语音识别方法 语音识别模块 图像 模型训练模块 样本 应用程序编程接口 文本识别方法 风格 语音识别系统 资源 基础 人工智能技术 短视频 服务器
系统为您推荐了相关专利信息
1
非接触式音频处理方法及系统、可穿戴设备、存储介质
频域特征 音频 输入神经网络模型 可穿戴设备 非接触式
2
一种互动内容识别方法及相关装置
内容识别方法 视频 风险 计算机存储介质 对象
3
一种基于数据大模型的智能语义分析系统及方法
文本 语义分析方法 词语 标记 智能语义分析
4
智能座舱控制方法及相关设备
智能座舱 音频 车外噪声 参数 车辆
5
一种语音客服方法、装置及存储介质
词语 客服方法 语义 语音 文本
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号