基于历史对话文本的目标说话人提取方法、装置、介质及产品

正文

推荐专利

申请号：CN202510162330

申请日期：2025-02-14

公开号：CN119626211B

公开日期：2025-05-30

类型：发明专利

摘要

本发明提供一种基于历史对话文本的目标说话人提取方法、装置、介质及产品，该方法包括：通过语音编码器处理混合语音信号，得到频谱特征嵌入；其中，混合语音信号包括目标说话人的语音信号、干扰说话人的语音信号、噪声信号；通过文本编码器处理文本提示信息，得到文本特征嵌入；文本提示信息与目标说话人的语音信号对应的文本内容关联；通过融合层融合频谱特征嵌入和文本特征嵌入，得到融合特征；通过掩码估计器处理融合特征，得到融合特征对应的目标掩码；根据目标掩码和混合语音信号提取出目标说话人的语音信号。本发明可以提高目标说话人的识别效果，且无需预先注册语音，实施方便。

技术关键词

频谱特征融合特征语音编码器语音信号提取文本编码器回声路径特征深度学习训练噪声预训练模型计算机装置计算机程序产品混合方法处理器矩阵模块

系统为您推荐了相关专利信息

超分辨率模型获取与视频流处理方法、装置及监控系统

图像融合特征超分辨率模型超分辨率网络模型获取方法

嗜铬细胞瘤的图像分割方法、设备及介质

图像分割模型图像分割方法图像嵌入编码特征多尺度特征

用于可推广深度伪造检测的双分支感知CLIP取证方法

取证方法多模态特征融合补丁语义特征融合特征

一种基于多源传感网络的电力安全态势评估智能方法

风险评估报告频谱特征 Lyapunov指数支持向量机算法动态仿真模型

一种电线杆区域分割定位方法和相关设备

电线杆图像分割网络多尺度局部特征上采样定位方法

基于历史对话文本的目标说话人提取方法、装置、介质及产品

站点导航

APP 下载