基于Whisper和FunASR双路语音识别大模型的多语种字幕生成方法

正文

推荐专利

申请号：CN202510074500

申请日期：2025-01-17

公开号：CN119517038B

公开日期：2025-05-09

类型：发明专利

摘要

本申请涉及语音识别技术领域，提供基于Whisper和FunASR双路语音识别大模型的多语种字幕生成方法，方法包括：通过滑动窗口方式将原始音频切分片段输入双路语音识别大模型；基于拼音相似度，通过对比双路语音识别大模型的两路输出结果，得到第一识别结果和已有结果；基于拼音相似度，拼接第一识别结果与已有结果为第二识别结果；在第二识别结果的结束位置设置下个滑动窗口，并继续识别下个音频片段，直至所有音频片段识别结束，得到语音识别结果；将语音识别结果输入翻译模型，生成多语种字幕内容。本申请识别准确率高、鲁棒性强、长音频处理效果好，并具有可扩展性。

技术关键词

字幕生成方法拼音滑动窗口音频翻译模型语音识别技术采样率鲁棒性列表

基于Whisper和FunASR双路语音识别大模型的多语种字幕生成方法

站点导航

APP 下载