摘要
本发明属于图像领域、语音领域和数字人技术领域,尤其涉及一种基于多模态的数字人生成方法。该方法先获取相同文本下不同形象人的有声视频,分离音视频并提取面部特征构建数据集;接着搭建并训练数字人形象克隆模型和音色克隆模型,分别实现从音频到面部特征、面部特征到无声视频的映射以及音色克隆;最后整合两个模型,借助大语言模型驱动实现数字人问答交流。与传统单一模态生成技术相比,本发明通过多模态数据融合,解决了虚拟人外观与音色不一致、情感表达不精准的问题,提升了数字人的真实感与自然度,增强了其在虚拟主播、智能客服等场景的表现力,推动了数字人技术的发展。
技术关键词
面部特征
生成方法
音频编解码
文本编码器
视频
音频解码器
大语言模型
多模态数据融合
音色特征
模块
智能客服
生成技术
训练集
策略
系统为您推荐了相关专利信息
运动信息处理方法
语义角色信息
节点
文本
生成有向无环图
互联网协议多媒体系统
下行数据处理方法
计算机可读指令
非瞬时性计算机可读存储介质
数据处理装置
上下文语境信息
路由器
调度算法
信号生成单元
策略更新