摘要
本发明提供了一种文本可视化语音编辑方法、系统、存储介质和设备,所述方法包括对输入的原始音频进行特征提取得到第一声音特征,将第一声音特征与第二声音特征进行多层线性层映射处理生成音频标记;通过反向标记将音频标记转换为对应文字内容,对编辑过程所有变更的文字生成文本标记;将生成的文本标记和映射的音频标记转换为统一的语义标记;将第一声音特征和第二声音特征进行特征融合,融合后的声音特征通过条件流匹配算法将语义标记解码为合成音频,得到语音编辑结果。本发明解决了现有技术中存在的语音编辑过程中操作复杂、交互性差和效率低下的问题,使得语音编辑的方式更加自由,同时最终合成的语音质量显著提升。
技术关键词
文本可视化
语音编辑系统
编辑方法
音频
语音编码器
梅尔频率倒谱系数
语义
交叉注意力机制
语音活动检测
标记器
线性
语音解码器
前馈神经网络
大语言模型
频谱特征
处理器
系统为您推荐了相关专利信息
音频特征提取
音频编码
生成方法
动作控制器
驱动信号
语音导航方法
关键词
患者
语音导航装置
智能医疗技术
特征点
视频生成方法
神经网络模型识别
视频生成装置
轮廓
音频采集电路
AI语音识别
MCU微控制器
服务端
无线发射电路
智能评估系统
脑电信号分析
脑电信号采集模块
情景
触觉刺激模块