一种结合文本纠错的流式语音识别方法

AITNT
正文
推荐专利
一种结合文本纠错的流式语音识别方法
申请号:CN202410973987
申请日期:2024-07-19
公开号:CN118841003B
公开日期:2025-11-14
类型:发明专利
摘要
本发明提供了一种结合文本纠错的流式语音识别方法。该方法包括:将待识别的音频数据进行分块处理后,将各个块的音频数据输入到流式语音识别系统,流式语音识别系统输出各个块的识别文本;将各个块的识别文本划分为等长文本块,再输入到纠错模型;纠错模型通过编码模块输出各个块的编码表示,再通过解码模块将各个块的编码表示逐块进行解码,利用记忆库计算当前帧与历史帧的相关性,输出纠错处理后的各个块;将纠错处理后的各个块发送至边缘补偿模块,边缘补偿模块利用历史块共同解码结果对各个块的右边缘进行修正补偿,得到各个块的音频数据的最终的识别文本。本发明方法实现了纠错模型的流式输出,使用边缘补偿机制解决了边缘错误纠正的问题。
技术关键词
语音识别系统 流式语音识别方法 文本 序列 错误检测器 音频 字符 解码模块 编码模块 二维卷积神经网络 编解码器架构 纠错模块 声学特征 记忆 注意力 分块 编码器 自动语音识别
系统为您推荐了相关专利信息
1
针对时间伪造的定位分析方法、系统、设备及存储介质
视频 定位分析方法 注意力 特征提取器 序列
2
一种结合yolov8与UIE模型用于军事领域的图文多模态实体关系抽取的方法
实体关系抽取 图片 军事 文本 多模态
3
基于多模态开集联想推理的变电站缺陷识别方法及系统
缺陷识别方法 变电站 视觉特征 多模态 注意力机制
4
基于人工智能的多模态订单智能管理系统及方法
智能管理系统 日期 生成订单 客户 识别标签
5
一种B族链球菌分型检测多重PCR引物和探针组合物及试剂盒
B族链球菌 试剂盒 核苷酸 引物 序列
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号