摘要
本申请涉及人工智能技术领域,具体提供一种数字人视频合成方法、服务器及存储介质,旨在解决如何简化数字人视频合成的操作并满足用户对视频个性化需求的问题。本申请提供的方法包括提取图像描述文本中的第一关键词并获取语义相似的第二关键词,将第一、第二关键词输入至图像生成模型进行图像生成得到第一数字人图像;将视频描述信息转换成语音信息,根据第一数字人图像中数字人的面部信息与语音信息生成渲染信息;根据渲染信息与第一数字人图像生成第二数字人图像;对语音信息与第二数字人图像进行视频合成得到数字人视频。基于上述方法,能够简化数字人视频合成的操作,并能满足用户对视频的个性化需求,同时提高视频的自然流畅度和逼真度。
技术关键词
关键词
语音
视频
面部
图像生成模型
人脸关键点
文本
知识图谱构建
生成字幕
语义
深度学习模型
人工智能技术
服务器
元素
处理器通信
界面
系统为您推荐了相关专利信息
动作持续时间
地点位置信息
生成特效视频
视频生成模型
视频生成方法
交易平台服务器
游戏信息处理
交易终端
账号
视频流
智能语音对话
唤醒装置
自动语音识别
语音聊天室
文本
智能对话模型
产品需求文档
语义向量
对话方法
生成框架