基于大语言模型后处理的长语音识别方法及电子设备

正文

推荐专利

申请号：CN202510199065

申请日期：2025-02-21

公开号：CN119993136A

公开日期：2025-05-13

类型：发明专利

摘要

本发明实施例提供一种基于大语言模型后处理的长语音识别方法及电子设备。该方法包括：将长语音持续的输入至与大语言模型级联的流式语音识别模型，作为有序的i个短音频片段进行语音识别；确定第j个短音频片段的N个候选识别文本以及对应的语音识别得分，以及上下文理解得分；基于语音识别得分以及上下文理解得分从N个候选识别文本中确定第j个短音频片段的最终识别文本，利用各短音频片段的最终识别文本有序的生成长语音的识别结果。本发明实施例将语音识别模型级联大语言模型，部署弹性灵活，不需要训练，能够充分利用现有模型的能力，并且能够不需要额外的模型结构，应用大语言模型作为后处理，以引入上下文信息，提高长语音识别的准确率。

技术关键词

文本语音识别模型大语言模型音频语音识别方法级联计算机程序产品识别模块语音识别系统电子设备拼接模块处理器通信指令存储器基础

系统为您推荐了相关专利信息

一种基于多模态融合的抑郁症识别方法、系统及存储介质

视频特征向量文本特征向量预训练模型文本编码器图像编码器

基于视觉令牌剪枝的多模态大模型无训练推理加速方法和装置

令牌视觉多层注意力序列多模态

面向行业大模型的多层次主题式检索增强生成方法及系统

双向长短期记忆网络多层次语义主题大语言模型生成方法

面向音乐教学的多模态AI虚拟助教系统及其实现方法

触觉设备异常状态肌肉电信号助教系统决策树模型

一种融合矛盾特征的文本虚假信息检测方法及系统

虚假信息检测方法场景特征注意力机制文本特征向量注意力模型

基于大语言模型后处理的长语音识别方法及电子设备

站点导航

APP 下载