摘要
本发明涉及人工智能技术领域,可应用于医疗健康及金融技术领域,公开了环境感知语音合成方法、装置、计算机设备及存储介质。所述方法包括:获取参考语音、目标环境音、目标文本以及环境感知值;将所述参考语音、所述目标环境音、所述目标文本以及所述环境感知值输入至合成模型中,由所述合成模型通过文本编码层转换文本为向量序列并对参考语音应用掩码策略,处理环境感知值与时间步嵌入以调控目标环境音强度,以进行带环境感知的语音生成,形成环境感知语音;输出环境感知语音。通过实施本发明实施例的方法可实现显著提升环境感知语音合成的自然度和真实感,特别是在远程医疗咨询和金融客服系统中提供更清晰、更自然的语音交流体验。
技术关键词
语音
流匹配方法
掩码策略
转换文本
计算机设备
三元组
编码
远程医疗咨询
多层感知机
序列
强度
客服系统
音频
人工智能技术
医疗健康
网络
处理器
金融
真实感
系统为您推荐了相关专利信息
关系型数据库
数字孪生模型
数字孪生方法
抽取实体关系
数字孪生系统
组合式降噪
语音信号处理方法
噪声分类
时域特征提取
频域特征提取
复位系统
延时闭合功能
延时开关
电子开关系统
燃气灶
人机交互方法
交互动作
置信度阈值
生成训练样本
语音