摘要
本公开涉及通信技术领域,尤其是提供一种语音生成方法、设备、介质和计算机程序产品。上述语音生成方法包括:在被叫用户激活智能回复功能的情况下,获取主叫用户的音频数据和被叫用户的声纹特征;对音频数据进行语义识别处理,获得主叫用户的情绪信息和意图信息,并基于情绪信息和意图信息生成回复文本;基于声纹特征将回复文本转换为初始语音回复;对初始语音回复进行降噪处理,获得目标语音回复,并向主叫用户发送目标语音回复。本公开通过综合使用语义识别技术、个性化的声纹特征和降噪处理,使得生成的语音回复能真实还原自然人在类似情况下的自然反应,使得智能语音回复更加真实,提高了用户的通话体验。
技术关键词
语音生成方法
声纹特征
时间感知模块
语音编解码器
意图
情绪识别模型
情绪特征
语音识别模型
计算机程序产品
卷积编码器
文本
特征提取模块
网络结构
数据
语义识别技术
音频特征
模板
系统为您推荐了相关专利信息
标签生成方法
最终用户
生成用户
离散特征
标签生成系统
沙盘演示系统
语义意图
可视化模块
表达序列
策略
节点
自然语言建模
映射关系表
调度算法
自然语言解析