多说话人语音识别方法、系统、存储介质及电子设备

AITNT
正文
推荐专利
多说话人语音识别方法、系统、存储介质及电子设备
申请号:CN202410747287
申请日期:2024-06-11
公开号:CN118588091A
公开日期:2024-09-03
类型:发明专利
摘要
本发明提供一种多说话人语音识别方法、系统、存储介质及电子设备,所述方法包括以下步骤:获取音频数据,并设置特殊字符;提取所述音频数据的音频特征、提取特殊字符特征;基于提取的特征构建输入特征矩阵;将所述输入特征矩阵输入大语言模型以获取融合特征矩阵;对所述融合特征矩阵进行解码,获取说话人识别内容;根据所述融合特征矩阵中所述特殊字符对应的向量判断所述音频数据是否仍包含其他说话人;若是,基于所述说话人识别内容和所述输入特征矩阵来获取更新的输入特征矩阵,并基于所述更新的输入特征矩阵获取其他说话人识别内容。本发明的多说话人语音识别方法提高了多人语音识别的准确性和效率,适用于复杂音频环境下的语音处理。
技术关键词
说话人识别 语音识别方法 字符 融合特征 矩阵 音频特征 说话人语音识别系统 大语言模型 多层感知机 电子设备 数据 模块 解码 存储计算机程序 搜索算法 存储器 可读存储介质 处理器
系统为您推荐了相关专利信息
1
基于改进Yolov8的倍捻机断线检测方法
动态规划方法 巡检路径 巡检机器人 断线检测方法 方差贡献率
2
基于矩阵运算三步实现数论变换的格密码方法及装置
矩阵 多项式 密码方法 阶段 加密算法
3
训练大语言模型的方法及装置
大语言模型 数据 超参数 协方差矩阵 文本
4
一种任务处理方法及相关装置
全局视觉特征 实例分割 文本 融合特征 计算机可读指令
5
一种实时云渲染的三维虚拟仿真方法
虚拟仿真方法 场景 分块 云渲染 策略
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号