基于多模态大模型的数字人生成方法、装置、设备及存储介质

正文

推荐专利

申请号：CN202510771255

申请日期：2025-06-10

公开号：CN120805968A

公开日期：2025-10-17

类型：发明专利

摘要

本发明提供一种基于多模态大模型的数字人生成方法、装置、设备及存储介质，涉及人工智能技术领域。该方法包括：获取用户输入的用户交互信息；将所述用户交互信息输入训练好的数字人交互模型，生成数字人说话视频；其中，所述用户交互信息至少包括文本、图像、视频和音频中的其中一个；所述数字人说话视频表征为通过数字人回应用户输入的所述用户交互信息的视频；所述数字人交互模型为通过用户交互信息样本和数字人样本进行训练得到的。本发明实施例用以解决现有技术中生成的数字人与用户交互体验差的缺陷，实现通过利用训练好的数字人交互模型，可以精确的融合用户输入的多模态信息，生成精确的数字人说话视频，能够显著提高用户交互体验感。

技术关键词

交互模型生成方法多模态视频生成数字人音频特征模块文本融合特征非暂态计算机可读存储介质生成语音面部编码器样本处理器图像序列人工智能技术

系统为您推荐了相关专利信息

一种基于交通车道管控的指示机器动态行走控制方法

道路拓扑数据行走控制方法指示机器调控策略控制指令生成单元

一种水性涂料流动性检测设备

流动性检测设备样本容器装置水性涂料施工装置驱动件

电池组装工序缺陷实时检测与分类方法及系统

二维图像特征分布式边缘参数全局特征描述子三维光学扫描仪

一种工程级板卡的生成方法、装置、板卡、介质及产品

板卡生成方法关系可读存储介质计算机程序产品

基于多轮预下载的体积视频流自适应传输方法及设备

切块传输方法播放器客户端视频流

基于多模态大模型的数字人生成方法、装置、设备及存储介质

站点导航

APP 下载