摘要
本发明涉及人工智能技术领域,公开了语音提取方法、装置、设备及介质,该方法包括:先获取目标说话人的参考语音和所有说话人的混合语音;对参考语音和混合语音进行预处理和编码,生成两个离散token序列;融合两个离散token序列形成融合离散token序列;利用语言模型对融合离散token序列进行预测,生成目标说话人的候选离散token序列;通过线性分类器计算候选token序列的概率分布,选取概率高的序列作为目标离散token序列;再将目标离散token序列重建为语音波形,得到目标说话人的语音。本发明将复杂的音频生成问题转换为分类问题,简化了模型训练;利用语言模型的序列建模能力捕捉语音token之间的长期依赖关系,实现高质量的语音重建。
技术关键词
语音提取方法
线性分类器
序列特征
交叉注意力机制
说话人语音特征
K均值聚类算法
交互特征
波形
声学特征
可读存储介质
分类阈值
人工智能技术
处理器
编码模块
计算机设备
系统为您推荐了相关专利信息
铁路货运列车图像
语义
编辑方法
噪声图像
对象定位
图像深度特征
视觉特征提取
文本编码器
数据
线索
抗病毒
交叉注意力机制
序列特征
识别方法
特征提取方法
轨迹
动态优先级队列
光照
BFGS算法
双目相机