一种多语言多模态的短剧虚拟人脸图像生成方法

正文

推荐专利

申请号：CN202411871074

申请日期：2024-12-18

公开号：CN119941885A

公开日期：2025-05-06

类型：发明专利

摘要

本发明公开了一种多语言多模态的短剧虚拟人脸图像生成方法，包括以下步骤：将待处理的音频、文本输入到语义提取模块提取语义特征；将时间步输入embedding层得到时间步特征；将提取到的语义特征和时间步特征一起输入到图像生成模块得到最终的图像。本发明不仅可以实现不同语种的文本和语音作为prompt控制生成的图片还可以有效的降低低质数据对模型效果的影响，同时采用在线数据筛查的方式，同样对模型效果起到了正向作用。

技术关键词

人脸图像生成方法多模态语音编码器语义特征多语言中文文本交叉注意力机制音频模块语音特征多任务关系图片

系统为您推荐了相关专利信息

一种基于AI的VR场景智能识别方法

智能识别方法语义图谱融合语义三元组音频

电缆隧道裂纹检测方法、装置和计算机设备

电缆隧道加权特征红外热像图权重特征裂纹检测方法

集成式变频电机的自适应冷却控制方法及系统

冷却控制方法初始运行频率模式多模态数据融合综合温度

一种针体追踪式智能针灸系统

智能针灸系统针体动态更新超声探测组件电磁感应组件

一种基于认知共情增强的人机双向理解系统及其实现方法

理解系统多模态特征融合人机动态更新识别模块

一种多语言多模态的短剧虚拟人脸图像生成方法

站点导航

APP 下载