摘要
本发明提供一种多说话人语音识别方法、系统、存储介质及电子设备,所述方法包括以下步骤:获取音频数据,并设置特殊字符;提取所述音频数据的音频特征、提取特殊字符特征;基于提取的特征构建输入特征矩阵;将所述输入特征矩阵输入大语言模型以获取融合特征矩阵;对所述融合特征矩阵进行解码,获取说话人识别内容;根据所述融合特征矩阵中所述特殊字符对应的向量判断所述音频数据是否仍包含其他说话人;若是,基于所述说话人识别内容和所述输入特征矩阵来获取更新的输入特征矩阵,并基于所述更新的输入特征矩阵获取其他说话人识别内容。本发明的多说话人语音识别方法提高了多人语音识别的准确性和效率,适用于复杂音频环境下的语音处理。
技术关键词
说话人识别
语音识别方法
字符
融合特征
矩阵
音频特征
说话人语音识别系统
大语言模型
多层感知机
电子设备
数据
模块
解码
存储计算机程序
搜索算法
存储器
可读存储介质
处理器
系统为您推荐了相关专利信息
动态规划方法
巡检路径
巡检机器人
断线检测方法
方差贡献率
全局视觉特征
实例分割
文本
融合特征
计算机可读指令