摘要
本发明公开了一种数字人实时交互和驱动系统、方法、介质和电子设备,该系统包括前端与控制模块、核心处理模块和音视频服务模块,前端与控制模块用于输出控制指令;核心处理模块用于在接收到控制指令后,对通过至少一种方式获取的问题回复文本进行文本转语音,以语音合成得到对应语音内容,并对语音内容进行数字人推理得到数字人图像帧,对数字人图像帧进行音视频合成得到数字人音视频图像;音视频服务模块用于实现数字人音视频图像的实时传输,以便实现数字人与对应虚拟房间的用户之间的实时交互。本发明通过流式处理和消息队列技术,可实现系统整体流程的低延迟,提升系统的实时性和并发处理能力。
技术关键词
文本
音视频输出单元
图像
语音识别单元
消息队列技术
核心
控制模块
房间
电子设备
接收前端
处理器
提升系统
驱动方法
可读存储介质
视频帧
处理单元
协议