摘要
本申请实施例属于人脸动态合成技术领域,应用于金融新闻播报场景中,涉及一种动态说话人脸生成方法、装置、设备及其存储介质,包括将待合成文本内容输入预训练完成的CLIP模型,输出序列化的唇部动作变化框图;将待合成文本内容、序列化的唇部动作变化框图和目标人脸图像输入到动态说话人脸生成模型,输出动态人脸语音视频。此方法,能够在不同身份人物之间通用,不受人种及语言限制输出高质量人物说话视频,相对于传统基于生成对抗网络的训练方法更加可靠,而且,将该方法使用到金融行业,可以利用虚拟形象和语音来推荐金融产品,不需要雇佣专业配音员、视频制作人员,也不需要花费大量时间录制和编辑视频,减少了人力和时间成本。
技术关键词
人脸生成方法
文本
动态人脸
音视频
计算机可读指令
图像
语音识别模型
特征提取模型
关键帧
编解码方式
解耦技术
生成对抗网络
可读存储介质
金融
数据获取模块
系统为您推荐了相关专利信息
客流预测系统
客流预测方法
站点
深度强化学习
节假日信息
T恤
图像生成方法
图像生成系统
生成网络模型
图片
多源交通数据
多模态
文本编码器
交通事故数据
图像编码器