摘要
本发明公开了一种多语言多模态的短剧虚拟人脸图像生成方法,包括以下步骤:将待处理的音频、文本输入到语义提取模块提取语义特征;将时间步输入embedding层得到时间步特征;将提取到的语义特征和时间步特征一起输入到图像生成模块得到最终的图像。本发明不仅可以实现不同语种的文本和语音作为prompt控制生成的图片还可以有效的降低低质数据对模型效果的影响,同时采用在线数据筛查的方式,同样对模型效果起到了正向作用。
技术关键词
人脸图像生成方法
多模态
语音编码器
语义特征
多语言
中文文本
交叉注意力机制
音频
模块
语音特征
多任务
关系
图片
系统为您推荐了相关专利信息
电缆隧道
加权特征
红外热像图
权重特征
裂纹检测方法
冷却控制方法
初始运行频率
模式
多模态数据融合
综合温度
智能针灸系统
针体
动态更新
超声探测组件
电磁感应组件
理解系统
多模态特征融合
人机
动态更新
识别模块