一种可语音交互的三维数字人生成方法及系统

AITNT
正文
推荐专利
一种可语音交互的三维数字人生成方法及系统
申请号:CN202511445211
申请日期:2025-10-11
公开号:CN120931773A
公开日期:2025-11-11
类型:发明专利
摘要
本发明属于三维重建技术领域,公开了一种可语音交互的三维数字人生成方法及系统。本发明根据输入的目标文本和采样人声音频的语言不同,自动生成不同语言的全新说话音频;使用多模型联合估计与时序损失函数保障了三维人体运动的时序稳定性与细节还原能力,利于准确估计图像中面部表情细节和手部姿态。在估计得到的高精度三维人体模型后,基于语音驱动进行人体动作表情生成,实现语音生成的动作与表情的精准同步,准确生成符合全新说话音频的面部表情运动和身体姿态运动即全身三维人体模型;最后使用三维神经渲染模型将全身三维人体模型渲染为可语音交互的真人数字人。本发明利于实现从单张人物图片输入到高精度三维数字人的生成和语音交互。
技术关键词
三维人体模型 音色特征 生成方法 参数估计模型 面部 语音 音频特征提取 解码器 编码器 动作表情 关节特征 多层卷积网络 文本 图像 优化身体 顶点
系统为您推荐了相关专利信息
1
一种基于Transformer-CNN架构的大尺度储层模型重建方法及设备
储层模型 归一化模块 前馈神经网络 整体空间结构 三维地质建模
2
一种基于改进SURF和最佳缝合线算法的视频融合方法
视频融合方法 图像特征点 描述符 最佳缝合线 Hessian矩阵
3
基于聚类的告警关联规则生成方法、装置、设备及介质
告警关联规则 告警日志 肘部法则 生成方法 归因
4
基于眼球运动特征分析的帕金森病早期诊断系统
早期诊断系统 眼球 早期诊断模型 帕金森病诊断 患者
5
样本生成方法及程序产品
大语言模型 样本生成方法 种子 深度神经网络 过滤器
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号