摘要
本发明适用于数据处理领域,公开了一种基于多格式文件的语音合成方法、终端设备和存储介质。基于多格式文件的语音合成方法包括:提取多格式文件中的原始文本数据,多格式文件包括电子文档和图像;对原始文本数据执行预处理,得到目标文本数据,预处理包括干扰内容过滤操作;分割目标文本数据,得到多个文本片段,分割的操作基于文本语义结构层级和字符数量限制进行;生成多个文本片段对应的多个音频片段;拼接多个音频片段,得到目标音频文件。本发明可使基于多格式文件合成的音频文件既能完整呈现原文结构特征,又能实现超长文本的无缝衔接。
技术关键词
文本
文档格式文件
语音
音频
执行光学字符识别
语义结构
数据
动态比特率
终端设备
平台
采样率
音色特征
可读存储介质
标识符
电子
处理器
参数
声道