一种文本可视化语音编辑方法、系统、存储介质和设备

正文

推荐专利

申请号：CN202510060668

申请日期：2025-01-15

公开号：CN119889290A

公开日期：2025-04-25

类型：发明专利

摘要

本发明提供了一种文本可视化语音编辑方法、系统、存储介质和设备，所述方法包括对输入的原始音频进行特征提取得到第一声音特征，将第一声音特征与第二声音特征进行多层线性层映射处理生成音频标记；通过反向标记将音频标记转换为对应文字内容，对编辑过程所有变更的文字生成文本标记；将生成的文本标记和映射的音频标记转换为统一的语义标记；将第一声音特征和第二声音特征进行特征融合，融合后的声音特征通过条件流匹配算法将语义标记解码为合成音频，得到语音编辑结果。本发明解决了现有技术中存在的语音编辑过程中操作复杂、交互性差和效率低下的问题，使得语音编辑的方式更加自由，同时最终合成的语音质量显著提升。

技术关键词

文本可视化语音编辑系统编辑方法音频语音编码器梅尔频率倒谱系数语义交叉注意力机制语音活动检测标记器线性语音解码器前馈神经网络大语言模型频谱特征处理器

系统为您推荐了相关专利信息

基于实时音频驱动的数字人头像生成方法

音频特征提取音频编码生成方法动作控制器驱动信号

一种基于病情推荐就诊科室的语音导航方法、装置及设备

语音导航方法关键词患者语音导航装置智能医疗技术

基于人工智能的短视频生成方法及系统

特征点视频生成方法神经网络模型识别视频生成装置轮廓

一种基于离线AI的KNX智能家居语音控制系统

音频采集电路 AI语音识别 MCU微控制器服务端无线发射电路

一种基于脑电的意识障碍智能评估系统

智能评估系统脑电信号分析脑电信号采集模块情景触觉刺激模块

一种文本可视化语音编辑方法、系统、存储介质和设备

站点导航

APP 下载