音频驱动数字人的方法、装置、设备及存储介质

AITNT
正文
推荐专利
音频驱动数字人的方法、装置、设备及存储介质
申请号:CN202510253097
申请日期:2025-03-03
公开号:CN120220719A
公开日期:2025-06-27
类型:发明专利
摘要
本发明属于人工智能技术领域以及医疗健康领域,公开了一种音频驱动数字人的方法、装置、设备及存储介质,该方法包括:提取目标音频的音频特征;将所述音频特征输入第一预设模型中,得到所述目标音频对应的目标人脸3D关键点;融合所述目标人脸3D关键点和目标人物的人像信息,得到融合人脸信息;将所述融合人脸信息输入第二预设模型中,得到所述目标人物说所述目标音频的影像信息。本发明提供一种音频驱动数字人的方法、装置、设备及存储介质,解决了基于端对端模型的说话人视频合成方法所存在的问题。
技术关键词
融合人脸 关键点 音频特征 梅尔频率倒谱系数 轮廓特征 影像 面罩 音唇同步 输出模块 可读存储介质 三角形 人工智能技术 医疗健康 处理器 计算机设备 网格 存储器
系统为您推荐了相关专利信息
1
一种术前语音识别与交互评估方法
发音字典 梅尔频率倒谱系数 情感特征 建立语音识别模型 特征值
2
三维场景在线重建方法、装置、设备及存储介质
图像 坐标系 点云 门控循环单元 融合特征
3
基于多模态大模型的实时视频翻译与音画同步方法及系统
翻译语言 音画同步方法 多模态特征 语义向量 实时视频
4
一种姿态识别方法及装置
关键点 姿态识别方法 深度值 人体手部 模式
5
一种电力施工进度智能化管理方法及系统
智能化管理方法 Delaunay三角剖分 视频流 智能化管理系统 分布直方图
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号