基于历史对话文本的目标说话人提取方法、装置、介质及产品

AITNT
正文
推荐专利
基于历史对话文本的目标说话人提取方法、装置、介质及产品
申请号:CN202510162330
申请日期:2025-02-14
公开号:CN119626211B
公开日期:2025-05-30
类型:发明专利
摘要
本发明提供一种基于历史对话文本的目标说话人提取方法、装置、介质及产品,该方法包括:通过语音编码器处理混合语音信号,得到频谱特征嵌入;其中,混合语音信号包括目标说话人的语音信号、干扰说话人的语音信号、噪声信号;通过文本编码器处理文本提示信息,得到文本特征嵌入;文本提示信息与目标说话人的语音信号对应的文本内容关联;通过融合层融合频谱特征嵌入和文本特征嵌入,得到融合特征;通过掩码估计器处理融合特征,得到融合特征对应的目标掩码;根据目标掩码和混合语音信号提取出目标说话人的语音信号。本发明可以提高目标说话人的识别效果,且无需预先注册语音,实施方便。
技术关键词
频谱特征 融合特征 语音编码器 语音信号提取 文本编码器 回声 路径特征 深度学习训练 噪声 预训练模型 计算机装置 计算机程序产品 混合方法 处理器 矩阵 模块
系统为您推荐了相关专利信息
1
跨境电商的多国合规智能审核方法、装置、设备及介质
智能审核方法 审核模型 标签特征 抓取周期 贸易
2
一种上下文感知模型的训练方法和装置
多层次特征 关键词 验证规则 风险 文本
3
一种岩基上水闸结构的健康状态识别方法
健康状态识别方法 水闸结构 焦点损失函数 应变传感器 损伤特征
4
基于并行双编码器特征融合的息肉图像分割方法及系统
图像分割方法 双编码器 图像分割网络 融合特征 注意力机制
5
一种分类方法、装置、计算机设备及存储介质
多模态 分类方法 原型 文本编码器 视觉特征
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号