摘要
本发明涉及智能语音合成技术领域,公开一种基于深度学习的智能机器人语音合成方法,包括:步骤1、文本处理:接收输入文本,且对文本进行分词、词性标注和音素标注,得到文本嵌入序列,用于后续的情感分析步骤;步骤2、情感分析:根据生成的文本嵌入序列,使用基于BERT的情感分类模型对文本进行情感分析,得到文本情感嵌入,用于多模态情感融合;步骤3、接收视觉输入,通过卷积神经网络提取视觉情感嵌入,且将视觉情感嵌入输入到多模态情感融合中。通过深度学习模型能学习语音数据,提取出语音中的自然音素、语调和节奏特征,生成自然流畅的语音合成效果,能在语速、语调和音质上贴近人类语音,而增强用户的听觉体验。
技术关键词
文本
智能机器人
多模态
声谱
视觉
卷积神经网络提取
语音
情感分类模型
BERT模型
声码器
情感类别
语义向量
控制接口
卷积神经网络模型
音频
半监督训练
情感分类器
数据
生成方法
生成对抗网络
系统为您推荐了相关专利信息
模型训练方法
大语言模型
知识图谱构建
实体
生成模板
覆盖率测试方法
无线定位基站
二维码标签
计算机程序产品
轨迹
遥感分类方法
激光雷达数据
高层语义特征
融合特征
样本