摘要
本申请涉及语音识别技术领域,提供基于Whisper和FunASR双路语音识别大模型的多语种字幕生成方法,方法包括:通过滑动窗口方式将原始音频切分片段输入双路语音识别大模型;基于拼音相似度,通过对比双路语音识别大模型的两路输出结果,得到第一识别结果和已有结果;基于拼音相似度,拼接第一识别结果与已有结果为第二识别结果;在第二识别结果的结束位置设置下个滑动窗口,并继续识别下个音频片段,直至所有音频片段识别结束,得到语音识别结果;将语音识别结果输入翻译模型,生成多语种字幕内容。本申请识别准确率高、鲁棒性强、长音频处理效果好,并具有可扩展性。
技术关键词
字幕生成方法
拼音
滑动窗口
音频
翻译模型
语音识别技术
采样率
鲁棒性
列表