摘要
本发明实施例提供一种基于大语言模型后处理的长语音识别方法及电子设备。该方法包括:将长语音持续的输入至与大语言模型级联的流式语音识别模型,作为有序的i个短音频片段进行语音识别;确定第j个短音频片段的N个候选识别文本以及对应的语音识别得分,以及上下文理解得分;基于语音识别得分以及上下文理解得分从N个候选识别文本中确定第j个短音频片段的最终识别文本,利用各短音频片段的最终识别文本有序的生成长语音的识别结果。本发明实施例将语音识别模型级联大语言模型,部署弹性灵活,不需要训练,能够充分利用现有模型的能力,并且能够不需要额外的模型结构,应用大语言模型作为后处理,以引入上下文信息,提高长语音识别的准确率。
技术关键词
文本
语音识别模型
大语言模型
音频
语音识别方法
级联
计算机程序产品
识别模块
语音识别系统
电子设备
拼接模块
处理器通信
指令
存储器
基础
系统为您推荐了相关专利信息
视频特征向量
文本特征向量
预训练模型
文本编码器
图像编码器
双向长短期记忆网络
多层次
语义主题
大语言模型
生成方法
触觉设备
异常状态
肌肉电信号
助教系统
决策树模型
虚假信息检测方法
场景特征
注意力机制
文本特征向量
注意力模型