一种说话人提取方法及系统

AITNT

正文

推荐专利

一种说话人提取方法及系统

申请号：CN202410848619

申请日期：2024-06-27

公开号：CN118865940A

公开日期：2024-10-29

类型：发明专利

摘要

本发明提供一种说话人提取方法及系统，涉及语音识别技术领域，方法包括：获取文本信息和待识别混合音频，所述待识别混合音频中包括目标说话人的目标语音；将所述文本信息和所述待识别音频输入至语音识别模型，确定所述目标说话人，所述语音识别模型包括提示文本提取说话人(PTE)网络和文本语音识别(TSR)网络中的至少一者。本发明通过获取文本信息和待识别混合音频，并将所述文本信息和所述待识别音频输入至语音识别模型，能够同时关注声音的频谱特征和文本信息，又因为所述语音识别模型包括提示文本提取说话人(PTE)网络和文本语音识别(TSR)网络中的至少一者，能够利用混合音频场景下的视觉特性。

技术关键词

语音识别模型融合特征音频递归神经网络语音编码器语音适配器文本编码器神经网络模型语音解码器计算机可读指令矩阵交叉注意力机制语音识别功能语音识别技术预训练模型

系统为您推荐了相关专利信息

1

讲解预约服务管理方法、计算设备和存储介质

云平台讲解设备服务管理方法服务器音频

2

基于双光配准融合的目标检测方法、装置及无人机系统

可见光图像山区融合特征高精度定位模块特征提取网络

3

搭载电场传感器的无人机验电平台及验电方法

无人机验电位置姿态数据电场传感器多旋翼无人机飞行天气环境数据

4

一种基于ISPA-Net的路侧ISAR车辆目标成像微多普勒干扰抑制方法

微多普勒干扰抑制方法递归神经网络成像注意力

5

一种风机内部巡检机器人及其检测方法

内部检测方法机器人壳体风机注意力机制内部缺陷检测

添加客服微信openai178，进AITNT官方交流群

驱动智慧未来：提供一站式AI转型解决方案

沪ICP备2023015588号