摘要
本发明提供一种基于多模态大模型的数字人生成方法、装置、设备及存储介质,涉及人工智能技术领域。该方法包括:获取用户输入的用户交互信息;将所述用户交互信息输入训练好的数字人交互模型,生成数字人说话视频;其中,所述用户交互信息至少包括文本、图像、视频和音频中的其中一个;所述数字人说话视频表征为通过数字人回应用户输入的所述用户交互信息的视频;所述数字人交互模型为通过用户交互信息样本和数字人样本进行训练得到的。本发明实施例用以解决现有技术中生成的数字人与用户交互体验差的缺陷,实现通过利用训练好的数字人交互模型,可以精确的融合用户输入的多模态信息,生成精确的数字人说话视频,能够显著提高用户交互体验感。
技术关键词
交互模型
生成方法
多模态
视频
生成数字人
音频特征
模块
文本
融合特征
非暂态计算机可读存储介质
生成语音
面部
编码器
样本
处理器
图像
序列
人工智能技术
系统为您推荐了相关专利信息
道路拓扑数据
行走控制方法
指示机器
调控策略
控制指令生成单元
流动性检测设备
样本容器装置
水性涂料
施工装置
驱动件
二维图像特征
分布式边缘
参数
全局特征描述子
三维光学扫描仪
板卡
生成方法
关系
可读存储介质
计算机程序产品