基于大语言模型后处理的长语音识别方法及电子设备

AITNT
正文
推荐专利
基于大语言模型后处理的长语音识别方法及电子设备
申请号:CN202510199065
申请日期:2025-02-21
公开号:CN119993136A
公开日期:2025-05-13
类型:发明专利
摘要
本发明实施例提供一种基于大语言模型后处理的长语音识别方法及电子设备。该方法包括:将长语音持续的输入至与大语言模型级联的流式语音识别模型,作为有序的i个短音频片段进行语音识别;确定第j个短音频片段的N个候选识别文本以及对应的语音识别得分,以及上下文理解得分;基于语音识别得分以及上下文理解得分从N个候选识别文本中确定第j个短音频片段的最终识别文本,利用各短音频片段的最终识别文本有序的生成长语音的识别结果。本发明实施例将语音识别模型级联大语言模型,部署弹性灵活,不需要训练,能够充分利用现有模型的能力,并且能够不需要额外的模型结构,应用大语言模型作为后处理,以引入上下文信息,提高长语音识别的准确率。
技术关键词
文本 语音识别模型 大语言模型 音频 语音识别方法 级联 计算机程序产品 识别模块 语音识别系统 电子设备 拼接模块 处理器通信 指令 存储器 基础
系统为您推荐了相关专利信息
1
一种基于多模态融合的抑郁症识别方法、系统及存储介质
视频特征向量 文本特征向量 预训练模型 文本编码器 图像编码器
2
基于视觉令牌剪枝的多模态大模型无训练推理加速方法和装置
令牌 视觉 多层注意力 序列 多模态
3
面向行业大模型的多层次主题式检索增强生成方法及系统
双向长短期记忆网络 多层次 语义主题 大语言模型 生成方法
4
面向音乐教学的多模态AI虚拟助教系统及其实现方法
触觉设备 异常状态 肌肉电信号 助教系统 决策树模型
5
一种融合矛盾特征的文本虚假信息检测方法及系统
虚假信息检测方法 场景特征 注意力机制 文本特征向量 注意力模型
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号