摘要
本发明公开了一种语音对话的流式处理方法及其装置、电子设备及存储介质,涉及音视频技术领域或其他相关技术领域,其中,语音对话的流式处理方法包括:接收连续的语音流,并获取语音流对应的历史对话文本;将语音流和历史对话文本输入至流式处理模型,输出流式语音融合特征向量,其中,流式处理模型基于状态空间模型和动态选择机制对语音流进行特征提取;将流式语音融合特征向量输入至语言处理模型,输出响应文本;基于响应文本生成响应音频,并向用户端返回响应音频。本发明解决了相关技术中,级联架构下的语音对话处理效率较低的技术问题。
技术关键词
状态空间模型
语音特征
文本特征向量
序列
实时语音
动态
可读存储介质
音频
音视频技术
电子设备
依赖特征
计算机
矩阵
时序特征
注意力机制
分段
处理器