语音提取方法、装置、设备及介质

正文

推荐专利

语音提取方法、装置、设备及介质

申请号：CN202510253089

申请日期：2025-03-03

公开号：CN119993130A

公开日期：2025-05-13

类型：发明专利

摘要

本发明涉及人工智能技术领域，公开了语音提取方法、装置、设备及介质，该方法包括：先获取目标说话人的参考语音和所有说话人的混合语音；对参考语音和混合语音进行预处理和编码，生成两个离散token序列；融合两个离散token序列形成融合离散token序列；利用语言模型对融合离散token序列进行预测，生成目标说话人的候选离散token序列；通过线性分类器计算候选token序列的概率分布，选取概率高的序列作为目标离散token序列；再将目标离散token序列重建为语音波形，得到目标说话人的语音。本发明将复杂的音频生成问题转换为分类问题，简化了模型训练；利用语言模型的序列建模能力捕捉语音token之间的长期依赖关系，实现高质量的语音重建。

技术关键词

语音提取方法线性分类器序列特征交叉注意力机制说话人语音特征 K均值聚类算法交互特征波形声学特征可读存储介质分类阈值人工智能技术处理器编码模块计算机设备

系统为您推荐了相关专利信息

基于递归反馈增强的上下文嵌入方法、装置、设备及介质

嵌入方法文本图像混合专家网络数据

一种铁路货运列车图像异常区域编辑方法及系统

铁路货运列车图像语义编辑方法噪声图像对象定位

基于自适应数据选取与文本融合的半监督伪装目标检测方法

图像深度特征视觉特征提取文本编码器数据线索

基于多模态融合的抗病毒肽识别方法及系统

抗病毒交叉注意力机制序列特征识别方法特征提取方法

一种复杂光照条件下的无人机自主导航方法

轨迹动态优先级队列光照 BFGS算法双目相机

语音提取方法、装置、设备及介质

站点导航

APP 下载