基于Whisper和FunASR双路语音识别大模型的多语种字幕生成方法

AITNT
正文
推荐专利
基于Whisper和FunASR双路语音识别大模型的多语种字幕生成方法
申请号:CN202510074500
申请日期:2025-01-17
公开号:CN119517038B
公开日期:2025-05-09
类型:发明专利
摘要
本申请涉及语音识别技术领域,提供基于Whisper和FunASR双路语音识别大模型的多语种字幕生成方法,方法包括:通过滑动窗口方式将原始音频切分片段输入双路语音识别大模型;基于拼音相似度,通过对比双路语音识别大模型的两路输出结果,得到第一识别结果和已有结果;基于拼音相似度,拼接第一识别结果与已有结果为第二识别结果;在第二识别结果的结束位置设置下个滑动窗口,并继续识别下个音频片段,直至所有音频片段识别结束,得到语音识别结果;将语音识别结果输入翻译模型,生成多语种字幕内容。本申请识别准确率高、鲁棒性强、长音频处理效果好,并具有可扩展性。
技术关键词
字幕生成方法 拼音 滑动窗口 音频 翻译模型 语音识别技术 采样率 鲁棒性 列表
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号