摘要
本发明公开了基于级联的多模态数字人实时对话系统及方法,属于人工智能技术领域,要解决的技术问题为:如何实现高效、多模态且可定制的数字人实时对话。包括:语音识别模块,用于通过工业级语音识别工具包将用户语音转换为文本信息;大语音模型模块,用于根据语音识别模块输出的文本生成对话回复信息;文本转语音模块,用于将大语音模型模块输出的回复信息转换为语音信息;说话人生成模块,用于基于语音信息、通过精确唇形同步技术生成数字人说话视频;前后端交互模块,用于实现视频的流式传输以及用户交互。
技术关键词
对话系统
语音识别模块
对话方法
生成数字人
工具包
文本
级联
语音识别服务
交叉注意力机制
并行流水线
生成提示词
视频帧
音频编码
多模态
大语言模型
人工智能技术
单轮
系统为您推荐了相关专利信息
智能对话方法
智能对话系统
客户
意图识别模型
情绪识别模型
预训练语言模型
向量检索方法
检索系统
对话系统
问答系统
智能对话方法
多轮对话
画像数据库
序列
语义规则
人脸图片
面部动作单元
频繁项集挖掘
深度卷积神经网络
线性分类器