摘要
本申请公开了一种数字人实时交互系统及方法。交互系统包括终端设备和云端服务器。终端设备接收用户输入的语音并传输至云端服务器。云端服务器包括视频采集与处理模块、智能问答与语音生成模块、音频处理模块和图像渲染模块。视频采集与处理模块采集指示数字人形象的对象的原始视频数据,并生成连续图像帧。智能问答与语音生成模块将该语音转换为文本;对文本进行语义分析,理解用户意图,并生成相应的回复文本;还将该回复文本转换为回复语音。音频处理模块对回复语音和连续图像帧进行处理,生成第一视频数据。图像渲染模块将第一视频数据与虚拟背景相融合,并对融合后的视频进行实时处理,以生成响应视频。终端设备输出该响应视频。
技术关键词
云端服务器
语音
文本
终端设备
交互系统
视频输出模块
渲染技术
音频信号处理模块
图像
数据
预训练模型
对话状态追踪
对象
频谱特征
意图
视觉特征
视频处理单元
系统为您推荐了相关专利信息
智能电子秤
数据处理系统
存储库
信号预处理模块
销量预测模型
语义特征
文本
融合特征
交叉注意力机制
图像修复方法
屏幕亮度调节方法
脉冲宽度调制占空比
亮度补偿模型
环境光条件
屏幕显示内容