摘要
本发明公开了一种基于情感调控的交互式语音合成方法、系统、介质和产品,涉及语音合成领域,包括:选择说话人角色;实时获取说话人角色音频;对说话人角色音频进行语音文字转录,得到第一文本;对说话人角色音频进行音频情感意图识别,得到第二文本;将第一文本和第二文本进行拼接,得到对话文本;对对话文本进行情感调控,得到情感调控对话文本;根据情感调控对话文本和说话人角色,输出目标语音。本发明能够实时捕捉用户输入的情感信息,从而根据用户输入的情感信息对对话文本进行实时动态的情感调整,以使输出的目标语音始终与当前情感状态相匹配,大幅提升了人机交互的自然性和实时性。
技术关键词
交互式语音
文本
音频
人脸特征向量
意图识别
人脸特征提取
人脸识别模型
年龄
风格
计算机程序产品
表达式
可读存储介质
音视频
模块
处理器
图文
系统为您推荐了相关专利信息
多模态交互
统一语义理解
客服方法
人工智能客服技术
客服系统
图谱
数据分析方法
计算机程序指令
文本
双向长短期记忆
数据标注方法
融合标签
生成热力图
加权欧氏距离
矩阵