一种动态说话人脸生成方法、装置、设备及其存储介质

正文

推荐专利

申请号：CN202410866445

申请日期：2024-06-28

公开号：CN118781239A

公开日期：2024-10-15

类型：发明专利

摘要

本申请实施例属于人脸动态合成技术领域，应用于金融新闻播报场景中，涉及一种动态说话人脸生成方法、装置、设备及其存储介质，包括将待合成文本内容输入预训练完成的CLIP模型，输出序列化的唇部动作变化框图；将待合成文本内容、序列化的唇部动作变化框图和目标人脸图像输入到动态说话人脸生成模型，输出动态人脸语音视频。此方法，能够在不同身份人物之间通用，不受人种及语言限制输出高质量人物说话视频，相对于传统基于生成对抗网络的训练方法更加可靠，而且，将该方法使用到金融行业，可以利用虚拟形象和语音来推荐金融产品，不需要雇佣专业配音员、视频制作人员，也不需要花费大量时间录制和编辑视频，减少了人力和时间成本。

技术关键词

人脸生成方法文本动态人脸音视频计算机可读指令图像语音识别模型特征提取模型关键帧编解码方式解耦技术生成对抗网络可读存储介质金融数据获取模块

系统为您推荐了相关专利信息

一种人形机器人多模态数据处理方法、系统、设备及介质

人形机器人识别特征多模态数据工业

面向特殊事件的道路客运线路客流预测方法及系统

客流预测系统客流预测方法站点深度强化学习节假日信息

基于人工智能的T恤图像生成方法、系统、介质及设备

T恤图像生成方法图像生成系统生成网络模型图片

一种多源交通数据信息提取与智能判责方法、系统和设备

多源交通数据多模态文本编码器交通事故数据图像编码器

一种基于扩散策略的机器人交互控制方法和服务器

生成机器人预测机器人机器人关节策略网络

一种动态说话人脸生成方法、装置、设备及其存储介质

站点导航

APP 下载