摘要
本申请涉及一种语音交互方法、装置及电子设备,方法包括:获取用户的语音指令和用户图像;对语音指令进行情绪分类,得到第一情绪分类结果;对用户图像进行情绪分类,得到第二情绪分类结果;基于第一情绪分类结果和第二情绪分类结果确定用户的目标情绪状态;由语音生成模型根据目标情绪状态和针对语音指令的回复文本,生成目标语音风格下的答复语音;其中,目标语音风格是适配目标情绪状态的语音风格,也即是在目标情绪状态指示负面情绪时,缓解负面情绪的语音风格;本申请提供的方法可以根据用户的状态实现语音风格的实时切换;而且语音风格同时考虑了用户的情绪状态和回复文本的文本内容,使得答复语音的语音风格更准确。
技术关键词
语音生成模型
图像分析模型
风格
计算机可读指令
语音交互方法
文本内容特征
语音特征
情绪特征
样本
表情特征提取
语音交互装置
电子设备
穿着
处理器
输出模块
可读存储介质
系统为您推荐了相关专利信息
波形设计方法
场景构建系统
通信子系统
MIMO雷达
协方差矩阵
数据加密方法
控制单元
易失性存储器
参数
加密算法