一种文本可视化语音编辑方法、系统、存储介质和设备

AITNT
正文
推荐专利
一种文本可视化语音编辑方法、系统、存储介质和设备
申请号:CN202510060668
申请日期:2025-01-15
公开号:CN119889290A
公开日期:2025-04-25
类型:发明专利
摘要
本发明提供了一种文本可视化语音编辑方法、系统、存储介质和设备,所述方法包括对输入的原始音频进行特征提取得到第一声音特征,将第一声音特征与第二声音特征进行多层线性层映射处理生成音频标记;通过反向标记将音频标记转换为对应文字内容,对编辑过程所有变更的文字生成文本标记;将生成的文本标记和映射的音频标记转换为统一的语义标记;将第一声音特征和第二声音特征进行特征融合,融合后的声音特征通过条件流匹配算法将语义标记解码为合成音频,得到语音编辑结果。本发明解决了现有技术中存在的语音编辑过程中操作复杂、交互性差和效率低下的问题,使得语音编辑的方式更加自由,同时最终合成的语音质量显著提升。
技术关键词
文本可视化 语音编辑系统 编辑方法 音频 语音编码器 梅尔频率倒谱系数 语义 交叉注意力机制 语音活动检测 标记器 线性 语音解码器 前馈神经网络 大语言模型 频谱特征 处理器
系统为您推荐了相关专利信息
1
基于实时音频驱动的数字人头像生成方法
音频特征提取 音频编码 生成方法 动作控制器 驱动信号
2
一种基于病情推荐就诊科室的语音导航方法、装置及设备
语音导航方法 关键词 患者 语音导航装置 智能医疗技术
3
基于人工智能的短视频生成方法及系统
特征点 视频生成方法 神经网络模型识别 视频生成装置 轮廓
4
一种基于离线AI的KNX智能家居语音控制系统
音频采集电路 AI语音识别 MCU微控制器 服务端 无线发射电路
5
一种基于脑电的意识障碍智能评估系统
智能评估系统 脑电信号分析 脑电信号采集模块 情景 触觉刺激模块
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号