数字人语音生成方法、装置、设备、存储介质及程序产品

AITNT
正文
推荐专利
数字人语音生成方法、装置、设备、存储介质及程序产品
申请号:CN202410707210
申请日期:2024-06-03
公开号:CN118741175A
公开日期:2024-10-01
类型:发明专利
摘要
本申请提供一种数字人语音生成方法、装置、设备、存储介质及程序产品。该方法包括:获取目标数字人的目标面部图像;将所述目标面部图像输入至第一阶段模型进行所述目标面部图像的特征编码提取,获得目标面部编码特征;获取与目标文本内容对应的目标音素数据,将所述目标音素数据和所述目标面部编码特征输入至第二阶段模型进行融合解码,获得目标音频数据;响应于用户的试听请求,播放所述目标音频数据。本申请的方案无需为每个数字人进行录音,提高数字人生成的实时性。
技术关键词
编码特征 语音生成方法 人面部图像 文本 音频特征 解码 语义特征 处理器 可读存储介质 计算机程序产品 数据编码 生成装置
系统为您推荐了相关专利信息
1
基于退火温度的钛合金锻件组织性能提升方法及系统
钛合金锻件 性能提升方法 分布特征 网络 钛合金材料
2
一种基于行业多模态特征数据的智能合规性检测方法
合规性检测方法 综合语义 BiLSTM模型 多模态特征 文本
3
海报图像的生成方法、装置、设备、介质和产品
海报 元素 文本 噪声图像 大语言模型
4
一种基于关联遗忘学习的半监督长期船舶重识别方法
船舶 图像 重识别方法 注意力机制 聚类
5
基于视频帧的视频多模态大模型越狱攻击方法、系统、设备和介质
多模态 视频帧 文本 对抗性 样本
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号