一种基于神经辐射场的音频驱动三维数字人生成方法及系统

正文

推荐专利

申请号：CN202411558615

申请日期：2024-11-04

公开号：CN119888023B

公开日期：2025-12-09

类型：发明专利

摘要

本发明提供一种基于神经辐射场的音频驱动三维数字人生成方法及系统，首先构建姿势保持先验生成模型，通过融合音频特征和面部姿势特征，利用自注意力机制和交叉注意力机制学习两种模态特征之间的跨模态交互关系，生成与输入音频同步的面部姿势先验信息。然后，构建神经辐射场渲染模型，采用三平面哈希编码技术对三维空间进行高效采样，并通过注意力机制动态融合面部姿势先验和音频特征。最后，将生成的姿势先验输入神经辐射场渲染模型进行体积渲染，引入光线累积透射率计算，生成高保真的三维数字人。本发明提高了数字人的真实感和表现力，降低了渲染计算复杂度，实现了动态连贯、唇音同步的实时数字人生成。

技术关键词

音频特征姿势交叉注意力机制唇部特征卷积神经网络提取编码技术生成方法面部特征点表达式模态特征图像计算误差卷积模块

系统为您推荐了相关专利信息

视频鉴伪与时间定位方法、装置、电子设备及存储介质

音频特征时间定位方法跨模态时间定位装置网络

基于时空地理与社会语义的交通事故风险预测方法及系统

交通事故风险语义特征模型社会注意力机制节点

基于文本大数据和状态空间的Transformer农业病虫害智能预测模型

农业病虫害大数据状态空间模型文本交叉注意力机制

卡口车辆流式图像数据多模态目标检索的方法

卡口车辆图像特征向量车辆图像数据文本特征向量生成方法

多模态音视频数据检测方法和系统

切片多模态数据检测方法音频特征音视频

一种基于神经辐射场的音频驱动三维数字人生成方法及系统

站点导航

APP 下载