用于拟人音频的生成方法及生成装置、电子设备

正文

推荐专利

申请号：CN202510103024

申请日期：2025-01-22

公开号：CN119964546A

公开日期：2025-05-09

类型：发明专利

摘要

本申请涉及语音播报技术领域，公开了一种用于拟人音频的生成方法及生成装置、电子设备。生成方法包括：获取大语言模型输出的流式回复信息，并分片处理流式回复信息确定多个文本切片；采用目标TTS模型的语义向量提取模型，识别每个文本切片的语义特征向量；采用目标TTS模型的情感向量生成模型，处理目标人物的音频文件和情感参数，确定目标人物的情感特征向量；根据每个文本切片的语义特征向量和目标人物的情感特征向量，合成每个文本切片对应的音频文件。本申请可以提高数字人输出音频的拟人程度。

技术关键词

切片文本生成方法语义向量生成装置大语言模型语音播报技术分片队列识别模块音频播放器电子设备参数处理器波形专业存储器

系统为您推荐了相关专利信息

一种基于云网融合的新型智能城域网部署方法

云网城域网系统机房环境网络切片技术网络架构

一种视频生成训练处理方法及系统

文本后处理模块字幕短视频视频镜头变化

一种基于自然语言文本的民航类招标文件处理方法

自然语言文本处理民航行业分类模型方法深度学习训练切片

一种设计依据文本智能审核系统及其使用方法

智能审核系统文本模块条目大语言模型

一种基于剧本三维媒体数据生成方法及系统

人物模型建筑模型基础设施模型数据生成方法生成视频数据

用于拟人音频的生成方法及生成装置、电子设备

站点导航

APP 下载