摘要
本发明涉及语音处理技术领域,可应用于金融科技及医疗健康等业务场景中,公开了一种语音文本双向转换方法、装置、设备及介质,包括:根据输入信息类型,分别执行语音识别或语音合成操作;对于语音信息,结合唇动视频数据生成噪声抑制参数并执行降噪处理,提升识别准确性;对于文本信息,获取预生成的说话人风格向量,并在语音合成过程中引用该向量生成自然的个性化语音,并生成与语音输出同步的唇动信息和触觉反馈。本发明通过融合唇动数据抑制复杂噪声、利用风格向量生成个性语音、输出唇动与触觉信息,实现复杂环境下语音与文本的双向实时转换,有效提升识别准确性、语音自然度和交互同步性。
技术关键词
双向转换方法
多模态环境
文本
频谱特征
风格
惯性传感器
生成噪声
双向转换装置
噪声抑制
数据
语音识别模型
视频
参数
生成触觉反馈
声学特征
执行语音识别
声码器
个性化语音
系统为您推荐了相关专利信息
移动终端通讯方法
识别码
通讯设备
属性识别模型
文本识别
持镜机器人
机器人控制方法
多模态
坐标误差
图像嵌入
语义特征
偏好特征
数据搜索方法
商品特征信息
关键词