摘要
本发明涉及语音处理技术领域,可应用于金融科技及医疗健康等业务场景中,公开了一种语音文本双向转换方法、装置、设备及介质,包括:根据输入信息类型,分别执行语音识别或语音合成操作;对于语音信息,结合唇动视频数据生成噪声抑制参数并执行降噪处理,提升识别准确性;对于文本信息,获取预生成的说话人风格向量,并在语音合成过程中引用该向量生成自然的个性化语音,并生成与语音输出同步的唇动信息和触觉反馈。本发明通过融合唇动数据抑制复杂噪声、利用风格向量生成个性语音、输出唇动与触觉信息,实现复杂环境下语音与文本的双向实时转换,有效提升识别准确性、语音自然度和交互同步性。
技术关键词
双向转换方法
多模态环境
文本
频谱特征
风格
惯性传感器
生成噪声
双向转换装置
噪声抑制
数据
语音识别模型
视频
参数
生成触觉反馈
声学特征
执行语音识别
声码器
个性化语音
系统为您推荐了相关专利信息
智能审核系统
语义
跨模态
对齐模块
文本特征向量
学习方法
多标签
混合专家网络
融合特征
多模态情感分析
BERT模型
自动生成系统
工程勘察数据
专业
命名实体识别
大语言模型
多模态
图谱
物料回收方法
编辑距离算法