一种数字人数据获取方案及多模态驱动模型训练方法

正文

推荐专利

申请号：CN202411125941

申请日期：2024-08-16

公开号：CN118864678A

公开日期：2024-10-29

类型：发明专利

摘要

本发明涉及一种数字人数据获取方案及多模态驱动模型训练方法，包括以下步骤：采用视觉编码器从图像中提取唇部动作特征，并将其转换为视觉表示；采用音频编码器将原始音频信号转换为连续的特征序列；采用一同步模块将视觉表示和连续的特征序列进行融合，得到融合后的特征向量；录制多个显示数字人表情和动作的视频；设计文本编码器处理网络输入的文本，使用时间序列学习模型将语音处理成文本时间序列数据；采用融合后的特征向量、多个显示数字人表情和动作的视频进行训练，得到能用的多模态驱动模型，将处理后的文本及文本时间序列数据输入能用的多模态驱动模型，生成数字人画面。本发明能实现更加自然的数字人生成效果。

技术关键词

模型训练方法音频编码器生成数字人音唇同步视频序列文本编码器数据动作特征交叉注意力机制长短期记忆网络视觉面部基础结构多模态画面图像语音

系统为您推荐了相关专利信息

一种模型训练方法、目标检测方法、装置及电子设备

注意力前馈神经网络样本模块多层感知机

显示屏复用方法及计算机可读存储介质

显示信息复用方法显示屏信息编码通用显示器

基于多维度的高原病科研学习路径个性化系统

个性化系统访问权限管理病历科研模块

模型训练方法、对象推荐方法、装置、设备、介质和产品

兴趣点特征编码模型强度生成用户对象推荐方法

数字道路模型构建方法

智能交通管理交通流量监控模型构建方法突发事件数据道路交通量

一种数字人数据获取方案及多模态驱动模型训练方法

站点导航

APP 下载