摘要
本发明公开一种基于低计算量语音驱动的实时数字人生成系统及方法,涉及数字人交互技术领域,所述系统包括:音频处理模块,配置为实时接收语音输入并提取音频特征向量;驱动与渲染模块,用于将音频特征向量映射为表征嘴部运动的参数,基于预处理的静态人脸参考数据及所述参数生成动态嘴部图像,并与参考图像融合;同步控制模块,用于根据时间戳对齐机制与PID反馈控制算法确保音频特征与渲染视频帧的同步;动态调度模块,用于实时监控硬件资源负载,并通过多线程并行及任务优先级调整实现计算资源的动态分配。根据本申请的技术方案,能够在移动端、嵌入式及多平台场景下实现数字人低延迟、高保真、低耗能的突破。
技术关键词
同步控制模块
生成系统
参数
动态
估计背景噪声
轻量级算法
音频特征提取
网格
语音
图像
人脸
多线程
掩膜矩阵
PID算法
可读存储介质
网络抖动
插值模块
系统为您推荐了相关专利信息
分类模型训练方法
声学特征
融合特征
语种识别方法
编码特征
异常信号
有向图模型
支持向量机分类器
滑动时间窗口
网络套接字
停车场巡检机器人
机器人巡检
路径规划方法
指标
路径规划系统
钢阻尼器
参数配置方法
三维模型
阻尼单元
有限元分析模型
虚拟同步机
并网系统
故障切除时刻
稳定性评估方法
保证系统