摘要
本发明公开了一种3D数字人实时对话交互系统及方法,通过获取用户输入的语音信号,将语音信号经过语音识别模型进行识别处理得到文本数据,输入到文本生成模型并输出语音文本数据,输入到语音合成模型并输出语音合成数据,将语音合成数据输入到3D表情生成模型并输出3D表情数据,根据语音信号和3D表情数据构建声音克隆模型并输出人声音频数据,对声音克隆模型进行微调并保存微调参数数据,使用户与数字人展开流畅、自然的对话,确保沟通的及时性和连贯性,极大地提升用户体验;通过接入知识库使数字人拥有海量的知识储备,为用户提供有价值的建议和指导,用户可个性化设置数字人的人物背景,增强了用户与数字人之间的情感连接。
技术关键词
对话交互系统
语音识别模型
文本生成模型
语音特征信息
情感分类模型
个性化特征
时序卷积神经网络
识别算法
对话交互方法
核心算法
信号
数据存储
向量空间模型
语音识别单元
参数
系统为您推荐了相关专利信息
文本生成模型
页面操作方法
意图识别模型
点击工具
多轮对话
语义理解模型
情感类别
情感分类模型
语音识别模型
文本
标签生成方法
文本生成模型
模态特征
注意力
标签文本
语音识别模型
多头注意力机制
文本
语音识别方法
大规模语音数据
图像生成方法
图像生成模型
字符
后处理模块
文本图像识别