一种基于神经辐射场的音频驱动三维数字人生成方法及系统

AITNT
正文
推荐专利
一种基于神经辐射场的音频驱动三维数字人生成方法及系统
申请号:CN202411558615
申请日期:2024-11-04
公开号:CN119888023B
公开日期:2025-12-09
类型:发明专利
摘要
本发明提供一种基于神经辐射场的音频驱动三维数字人生成方法及系统,首先构建姿势保持先验生成模型,通过融合音频特征和面部姿势特征,利用自注意力机制和交叉注意力机制学习两种模态特征之间的跨模态交互关系,生成与输入音频同步的面部姿势先验信息。然后,构建神经辐射场渲染模型,采用三平面哈希编码技术对三维空间进行高效采样,并通过注意力机制动态融合面部姿势先验和音频特征。最后,将生成的姿势先验输入神经辐射场渲染模型进行体积渲染,引入光线累积透射率计算,生成高保真的三维数字人。本发明提高了数字人的真实感和表现力,降低了渲染计算复杂度,实现了动态连贯、唇音同步的实时数字人生成。
技术关键词
音频特征 姿势 交叉注意力机制 唇部特征 卷积神经网络提取 编码技术 生成方法 面部特征点 表达式 模态特征 图像 计算误差 卷积模块
系统为您推荐了相关专利信息
1
视频鉴伪与时间定位方法、装置、电子设备及存储介质
音频特征 时间定位方法 跨模态 时间定位装置 网络
2
基于时空地理与社会语义的交通事故风险预测方法及系统
交通事故风险 语义特征模型 社会 注意力机制 节点
3
基于文本大数据和状态空间的Transformer农业病虫害智能预测模型
农业病虫害 大数据 状态空间模型 文本 交叉注意力机制
4
卡口车辆流式图像数据多模态目标检索的方法
卡口车辆 图像特征向量 车辆图像数据 文本特征向量 生成方法
5
多模态音视频数据检测方法和系统
切片 多模态 数据检测方法 音频特征 音视频
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号