摘要
本发明公开一种文字驱动数字人的方法、系统及程序产品,属于AIGC技术领域;该方法包括:输入驱动文字、参考声音和形象图片;对参考声音进行识别,得到相应的参考文字;对参考声音进行特征提取,得到声音特征向量;根据驱动文字、声音特征向量和参考文字,得到驱动文字特征;根据驱动文字特征和形象图片,生成连续的图片结果;根据驱动文字特征,生成合成声音;根据连续的图片结果和合成声音,得到视频。本发明利用不同模态特征之间的关系,提高了驱动数字人的效果和效率。
技术关键词
文字特征
图片
音频特征
计算机程序代码
图像编码
计算机程序产品
视频
语音识别模型
音频解码器
特征提取模块
模态特征
解码模块
编码模块
输入模块
识别模块
采样率
系统为您推荐了相关专利信息
性能评估方法
障碍物
偏差
神经网络模型
跨越障碍
信息抽取模型
信息抽取方法
文本特征向量
图像特征向量
图像编码
AI图片识别
智能烘箱
图像AI识别
器械
护士站