摘要
本申请涉及人工智能技术领域,公开了一种基于人工智能的对话响应方法、装置、设备及介质,包括:获取目标用户的当前输入语音;通过目标多模态音频语言模型以及预设的目标上下文数据库生成当前输入语音的目标响应文本以及目标韵律风格向量,目标上下文数据库中包括目标用户的至少一条上下文数据,上下文数据包括对话信息以及对话信息对应的韵律风格向量;将目标响应文本以及目标韵律风格向量输入目标风格文本转语音模型进行语音合成处理,生成目标响应语音,并通过目标风格文本转语音模型提取当前输入语音的当前语音韵律风格向量,根据当前语音韵律风格向量以及当前输入语音更新目标上下文数据库。使得回答语音的韵律更加自然并提高响应速度。
技术关键词
风格
智能对话系统
文本
多模态
音频
样本
语音识别模型
数据
可读存储介质
人工智能技术
处理器
计算机设备
存储器
标识
指令