基于历史对话文本的目标说话人提取方法、装置、介质及产品

AITNT
正文
推荐专利
基于历史对话文本的目标说话人提取方法、装置、介质及产品
申请号:CN202510162330
申请日期:2025-02-14
公开号:CN119626211B
公开日期:2025-05-30
类型:发明专利
摘要
本发明提供一种基于历史对话文本的目标说话人提取方法、装置、介质及产品,该方法包括:通过语音编码器处理混合语音信号,得到频谱特征嵌入;其中,混合语音信号包括目标说话人的语音信号、干扰说话人的语音信号、噪声信号;通过文本编码器处理文本提示信息,得到文本特征嵌入;文本提示信息与目标说话人的语音信号对应的文本内容关联;通过融合层融合频谱特征嵌入和文本特征嵌入,得到融合特征;通过掩码估计器处理融合特征,得到融合特征对应的目标掩码;根据目标掩码和混合语音信号提取出目标说话人的语音信号。本发明可以提高目标说话人的识别效果,且无需预先注册语音,实施方便。
技术关键词
频谱特征 融合特征 语音编码器 语音信号提取 文本编码器 回声 路径特征 深度学习训练 噪声 预训练模型 计算机装置 计算机程序产品 混合方法 处理器 矩阵 模块
系统为您推荐了相关专利信息
1
超分辨率模型获取与视频流处理方法、装置及监控系统
图像 融合特征 超分辨率模型 超分辨率网络 模型获取方法
2
嗜铬细胞瘤的图像分割方法、设备及介质
图像分割模型 图像分割方法 图像嵌入 编码特征 多尺度特征
3
用于可推广深度伪造检测的双分支感知CLIP取证方法
取证方法 多模态特征融合 补丁 语义特征 融合特征
4
一种基于多源传感网络的电力安全态势评估智能方法
风险评估报告 频谱特征 Lyapunov指数 支持向量机算法 动态仿真模型
5
一种电线杆区域分割定位方法和相关设备
电线杆 图像分割网络 多尺度局部特征 上采样 定位方法
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号