摘要
本申请公开了一种语音识别方法、语音识别装置和语音识别系统。本申请实施方式的语音识别方法包括:获取音频流数据;在获取音频流数据的过程中,获取音频流数据对应的多模态端点信号;基于多模态端点信号和语音活动检测模型对音频流数据进行分割,得到至少一个音频段;基于离线语音识别模型对至少一个音频段进行流式语音识别,得到识别文本;流式输出识别文本。如此,降低了输出识别文本的延迟,减少了硬件资源占用,可以适用于实时交互场景以及识别精度需求较高的场景。
技术关键词
离线语音识别模型
语音识别方法
语音活动检测
音频
文本
多模态
语音识别系统
端点
语音识别装置
信号
数据处理模块
动态
视频流
标记
输出模块
字符
识别模块
终点
系统为您推荐了相关专利信息
音频控制方法
蓝牙模组
头盔
驾驶环境信息
移动通讯设备
节点
多层注意力机制
权重分配机制
主题提取方法
文本