一种文字驱动数字人的方法、系统及程序产品

正文

推荐专利

申请号：CN202510149612

申请日期：2025-02-11

公开号：CN120086567A

公开日期：2025-06-03

类型：发明专利

摘要

本发明公开一种文字驱动数字人的方法、系统及程序产品，属于AIGC技术领域；该方法包括：输入驱动文字、参考声音和形象图片；对参考声音进行识别，得到相应的参考文字；对参考声音进行特征提取，得到声音特征向量；根据驱动文字、声音特征向量和参考文字，得到驱动文字特征；根据驱动文字特征和形象图片，生成连续的图片结果；根据驱动文字特征，生成合成声音；根据连续的图片结果和合成声音，得到视频。本发明利用不同模态特征之间的关系，提高了驱动数字人的效果和效率。

技术关键词

文字特征图片音频特征计算机程序代码图像编码计算机程序产品视频语音识别模型音频解码器特征提取模块模态特征解码模块编码模块输入模块识别模块采样率

系统为您推荐了相关专利信息

一种人形机器人实时控制性能评估方法及系统

性能评估方法障碍物偏差神经网络模型跨越障碍

一种信息抽取方法、装置、计算机设备及存储介质

信息抽取模型信息抽取方法文本特征向量图像特征向量图像编码

一种基于内容分析的多智能体自动修图系统

策略三元组语义地图文本准确识别图像

一种基于人台图生成模特商品图的方法、装置、设备和介质

人像特征模特模型标签文件数据图片

一种融合AI图片识别的医护用智能烘箱及其应用控制方法

AI图片识别智能烘箱图像AI识别器械护士站

一种文字驱动数字人的方法、系统及程序产品

站点导航

APP 下载