多说话人语音识别方法、系统、存储介质及电子设备

正文

推荐专利

申请号：CN202410747287

申请日期：2024-06-11

公开号：CN118588091A

公开日期：2024-09-03

类型：发明专利

摘要

本发明提供一种多说话人语音识别方法、系统、存储介质及电子设备，所述方法包括以下步骤：获取音频数据，并设置特殊字符；提取所述音频数据的音频特征、提取特殊字符特征；基于提取的特征构建输入特征矩阵；将所述输入特征矩阵输入大语言模型以获取融合特征矩阵；对所述融合特征矩阵进行解码，获取说话人识别内容；根据所述融合特征矩阵中所述特殊字符对应的向量判断所述音频数据是否仍包含其他说话人；若是，基于所述说话人识别内容和所述输入特征矩阵来获取更新的输入特征矩阵，并基于所述更新的输入特征矩阵获取其他说话人识别内容。本发明的多说话人语音识别方法提高了多人语音识别的准确性和效率，适用于复杂音频环境下的语音处理。

技术关键词

说话人识别语音识别方法字符融合特征矩阵音频特征说话人语音识别系统大语言模型多层感知机电子设备数据模块解码存储计算机程序搜索算法存储器可读存储介质处理器

系统为您推荐了相关专利信息

基于改进Yolov8的倍捻机断线检测方法

动态规划方法巡检路径巡检机器人断线检测方法方差贡献率

基于矩阵运算三步实现数论变换的格密码方法及装置

矩阵多项式密码方法阶段加密算法

训练大语言模型的方法及装置

大语言模型数据超参数协方差矩阵文本

一种任务处理方法及相关装置

全局视觉特征实例分割文本融合特征计算机可读指令

一种实时云渲染的三维虚拟仿真方法

虚拟仿真方法场景分块云渲染策略

多说话人语音识别方法、系统、存储介质及电子设备

站点导航

APP 下载