一种说话人提取方法及系统

AITNT
正文
推荐专利
一种说话人提取方法及系统
申请号:CN202410848619
申请日期:2024-06-27
公开号:CN118865940A
公开日期:2024-10-29
类型:发明专利
摘要
本发明提供一种说话人提取方法及系统,涉及语音识别技术领域,方法包括:获取文本信息和待识别混合音频,所述待识别混合音频中包括目标说话人的目标语音;将所述文本信息和所述待识别音频输入至语音识别模型,确定所述目标说话人,所述语音识别模型包括提示文本提取说话人(PTE)网络和文本语音识别(TSR)网络中的至少一者。本发明通过获取文本信息和待识别混合音频,并将所述文本信息和所述待识别音频输入至语音识别模型,能够同时关注声音的频谱特征和文本信息,又因为所述语音识别模型包括提示文本提取说话人(PTE)网络和文本语音识别(TSR)网络中的至少一者,能够利用混合音频场景下的视觉特性。
技术关键词
语音识别模型 融合特征 音频 递归神经网络 语音编码器 语音适配器 文本编码器 神经网络模型 语音解码器 计算机可读指令 矩阵 交叉注意力机制 语音识别功能 语音识别技术 预训练模型
系统为您推荐了相关专利信息
1
讲解预约服务管理方法、计算设备和存储介质
云平台 讲解设备 服务管理方法 服务器 音频
2
基于双光配准融合的目标检测方法、装置及无人机系统
可见光图像 山区 融合特征 高精度定位模块 特征提取网络
3
搭载电场传感器的无人机验电平台及验电方法
无人机验电 位置姿态数据 电场传感器 多旋翼无人机飞行 天气环境数据
4
一种基于ISPA-Net的路侧ISAR车辆目标成像微多普勒干扰抑制方法
微多普勒 干扰抑制方法 递归神经网络 成像 注意力
5
一种风机内部巡检机器人及其检测方法
内部检测方法 机器人壳体 风机 注意力机制 内部缺陷检测
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号