一种多模态的数字人生成方法

AITNT
正文
推荐专利
一种多模态的数字人生成方法
申请号:CN202510617627
申请日期:2025-05-14
公开号:CN120526008B
公开日期:2025-12-09
类型:发明专利
摘要
本发明属于图像领域、语音领域和数字人技术领域,尤其涉及一种基于多模态的数字人生成方法。该方法先获取相同文本下不同形象人的有声视频,分离音视频并提取面部特征构建数据集;接着搭建并训练数字人形象克隆模型和音色克隆模型,分别实现从音频到面部特征、面部特征到无声视频的映射以及音色克隆;最后整合两个模型,借助大语言模型驱动实现数字人问答交流。与传统单一模态生成技术相比,本发明通过多模态数据融合,解决了虚拟人外观与音色不一致、情感表达不精准的问题,提升了数字人的真实感与自然度,增强了其在虚拟主播、智能客服等场景的表现力,推动了数字人技术的发展。
技术关键词
面部特征 生成方法 音频编解码 文本编码器 视频 音频解码器 大语言模型 多模态数据融合 音色特征 模块 智能客服 生成技术 训练集 策略
系统为您推荐了相关专利信息
1
一种双阶段课堂教师教学行为检测方法、设备及介质
教师位置检测 教学 频率 阶段 视频
2
基于改进StrongSORT算法的厢式电梯内乘员跟踪方法
厢式电梯 跟踪方法 乘员 监控视频流 运动补偿
3
运动信息处理方法、装置、终端、电子设备以及存储介质
运动信息处理方法 语义角色信息 节点 文本 生成有向无环图
4
下行数据处理方法与装置、系统、设备、存储介质与产品
互联网协议多媒体系统 下行数据处理方法 计算机可读指令 非瞬时性计算机可读存储介质 数据处理装置
5
一种基于强化学习的多语言环境翻译语境优化方法
上下文语境信息 路由器 调度算法 信号生成单元 策略更新
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号