一种多语言多模态的短剧虚拟人脸图像生成方法

AITNT
正文
推荐专利
一种多语言多模态的短剧虚拟人脸图像生成方法
申请号:CN202411871074
申请日期:2024-12-18
公开号:CN119941885A
公开日期:2025-05-06
类型:发明专利
摘要
本发明公开了一种多语言多模态的短剧虚拟人脸图像生成方法,包括以下步骤:将待处理的音频、文本输入到语义提取模块提取语义特征;将时间步输入embedding层得到时间步特征;将提取到的语义特征和时间步特征一起输入到图像生成模块得到最终的图像。本发明不仅可以实现不同语种的文本和语音作为prompt控制生成的图片还可以有效的降低低质数据对模型效果的影响,同时采用在线数据筛查的方式,同样对模型效果起到了正向作用。
技术关键词
人脸图像生成方法 多模态 语音编码器 语义特征 多语言 中文文本 交叉注意力机制 音频 模块 语音特征 多任务 关系 图片
系统为您推荐了相关专利信息
1
一种基于AI的VR场景智能识别方法
智能识别方法 语义图谱 融合语义 三元组 音频
2
电缆隧道裂纹检测方法、装置和计算机设备
电缆隧道 加权特征 红外热像图 权重特征 裂纹检测方法
3
集成式变频电机的自适应冷却控制方法及系统
冷却控制方法 初始运行频率 模式 多模态数据融合 综合温度
4
一种针体追踪式智能针灸系统
智能针灸系统 针体 动态更新 超声探测组件 电磁感应组件
5
一种基于认知共情增强的人机双向理解系统及其实现方法
理解系统 多模态特征融合 人机 动态更新 识别模块
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号