摘要
本申请提供的一种数字人音视频生成方法、系统、设备及介质,所述方法包括:首先,获取文本信息和初始图像;基于情绪分析模型确定文本信息对应的情绪类别;识别初始图像中的人脸区域,得到初始图像中数字人对应的性别类别;基于情绪类别与性别类别生成数字人对应的音频数据;基于音频数据与初始图像生成数字人初始视频;将数字人初始视频输入唇形对齐模型中获得输出视频;输出视频中数字人的嘴型与音频数据对齐。利用情绪分析模型和图像识别技术,能够准确识别文本信息的情绪类别和初始图像中数字人的性别类别,生成具有情绪表达的数字人视频。
技术关键词
音视频生成方法
高维特征向量
生成数字人
人脸
情感分析模型
音频
动作融合
文本
识别模块
面部识别
数据
图像分割算法
图像识别技术
处理器
深度学习模型
关键词
系统为您推荐了相关专利信息
特征提取模型
人脸识别特征
矩阵
识别人脸图像
对象
多粒度特征
分支
可视化检测系统
换脸视频
注意力机制
大语言模型
交互方法
加密策略
文本
数据保护方法
门禁安防装置
人脸识别装置
闸机
往复丝杆
固定架