摘要
本申请涉及语音播报技术领域,公开了一种用于拟人音频的生成方法及生成装置、电子设备。生成方法包括:获取大语言模型输出的流式回复信息,并分片处理流式回复信息确定多个文本切片;采用目标TTS模型的语义向量提取模型,识别每个文本切片的语义特征向量;采用目标TTS模型的情感向量生成模型,处理目标人物的音频文件和情感参数,确定目标人物的情感特征向量;根据每个文本切片的语义特征向量和目标人物的情感特征向量,合成每个文本切片对应的音频文件。本申请可以提高数字人输出音频的拟人程度。
技术关键词
切片
文本
生成方法
语义向量
生成装置
大语言模型
语音播报技术
分片
队列
识别模块
音频播放器
电子设备
参数
处理器
波形
专业
存储器
系统为您推荐了相关专利信息
云网
城域网系统
机房环境
网络切片技术
网络架构
自然语言文本处理
民航行业
分类模型方法
深度学习训练
切片
人物模型
建筑模型
基础设施模型
数据生成方法
生成视频数据