语音提取方法、装置、设备及介质

AITNT
正文
推荐专利
语音提取方法、装置、设备及介质
申请号:CN202510253089
申请日期:2025-03-03
公开号:CN119993130A
公开日期:2025-05-13
类型:发明专利
摘要
本发明涉及人工智能技术领域,公开了语音提取方法、装置、设备及介质,该方法包括:先获取目标说话人的参考语音和所有说话人的混合语音;对参考语音和混合语音进行预处理和编码,生成两个离散token序列;融合两个离散token序列形成融合离散token序列;利用语言模型对融合离散token序列进行预测,生成目标说话人的候选离散token序列;通过线性分类器计算候选token序列的概率分布,选取概率高的序列作为目标离散token序列;再将目标离散token序列重建为语音波形,得到目标说话人的语音。本发明将复杂的音频生成问题转换为分类问题,简化了模型训练;利用语言模型的序列建模能力捕捉语音token之间的长期依赖关系,实现高质量的语音重建。
技术关键词
语音提取方法 线性分类器 序列特征 交叉注意力机制 说话人语音特征 K均值聚类算法 交互特征 波形 声学特征 可读存储介质 分类阈值 人工智能技术 处理器 编码模块 计算机设备
系统为您推荐了相关专利信息
1
基于递归反馈增强的上下文嵌入方法、装置、设备及介质
嵌入方法 文本 图像 混合专家网络 数据
2
一种铁路货运列车图像异常区域编辑方法及系统
铁路货运列车图像 语义 编辑方法 噪声图像 对象定位
3
基于自适应数据选取与文本融合的半监督伪装目标检测方法
图像深度特征 视觉特征提取 文本编码器 数据 线索
4
基于多模态融合的抗病毒肽识别方法及系统
抗病毒 交叉注意力机制 序列特征 识别方法 特征提取方法
5
一种复杂光照条件下的无人机自主导航方法
轨迹 动态优先级队列 光照 BFGS算法 双目相机
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号