摘要
本发明提供一种基于神经辐射场的音频驱动三维数字人生成方法及系统,首先构建姿势保持先验生成模型,通过融合音频特征和面部姿势特征,利用自注意力机制和交叉注意力机制学习两种模态特征之间的跨模态交互关系,生成与输入音频同步的面部姿势先验信息。然后,构建神经辐射场渲染模型,采用三平面哈希编码技术对三维空间进行高效采样,并通过注意力机制动态融合面部姿势先验和音频特征。最后,将生成的姿势先验输入神经辐射场渲染模型进行体积渲染,引入光线累积透射率计算,生成高保真的三维数字人。本发明提高了数字人的真实感和表现力,降低了渲染计算复杂度,实现了动态连贯、唇音同步的实时数字人生成。
技术关键词
音频特征
姿势
交叉注意力机制
唇部特征
卷积神经网络提取
编码技术
生成方法
面部特征点
表达式
模态特征
图像
计算误差
卷积模块
系统为您推荐了相关专利信息
音频特征
时间定位方法
跨模态
时间定位装置
网络
交通事故风险
语义特征模型
社会
注意力机制
节点
农业病虫害
大数据
状态空间模型
文本
交叉注意力机制
卡口车辆
图像特征向量
车辆图像数据
文本特征向量
生成方法