摘要
本发明涉及数字人的技术领域,提供了数字人视频生成方法、装置及计算机设备,包括获取文本信息、音频信息以及风格控制参数,对文本信息和音频信息进行语义解析和特征提取,得到文本驱动表达特征和音频驱动表达特征后进行协同调制,得到面部表情参数序列和口型参数序列;基于风格控制参数生成数字人的风格化三维人脸模型,利用面部表情参数序列和口型参数序列对风格化三维人脸模型进行驱动,生成对应的数字人视频。通过文本信息和音频信息以及风格控制参数的协同调制,增强了在面部表情和口型的同步,提升了数字人视频生成的自然性和准确性,改善在处理复杂的语境和情感表达时,存在口型与面部表情无法完全同步的问题。
技术关键词
三维人脸模型
视频生成方法
动画
序列
面部
文本
语音特征提取
风格
参数
音频特征
韵律模式
发音特征
情绪特征
计算机设备
语义向量
视频生成装置
系统为您推荐了相关专利信息
面部特征
声学特征
计算机可读非暂态存储介质
机器学习模型
客户端
模型构建方法
在线更新方法
预训练模型
问答语料
语言模块
风险评分模型
员工
风险监测方法
风险监测系统
数据采集模块