语音文本双向转换方法、装置、设备及介质

AITNT
正文
推荐专利
语音文本双向转换方法、装置、设备及介质
申请号:CN202510826684
申请日期:2025-06-19
公开号:CN120673761A
公开日期:2025-09-19
类型:发明专利
摘要
本发明涉及语音处理技术领域,可应用于金融科技及医疗健康等业务场景中,公开了一种语音文本双向转换方法、装置、设备及介质,包括:根据输入信息类型,分别执行语音识别或语音合成操作;对于语音信息,结合唇动视频数据生成噪声抑制参数并执行降噪处理,提升识别准确性;对于文本信息,获取预生成的说话人风格向量,并在语音合成过程中引用该向量生成自然的个性化语音,并生成与语音输出同步的唇动信息和触觉反馈。本发明通过融合唇动数据抑制复杂噪声、利用风格向量生成个性语音、输出唇动与触觉信息,实现复杂环境下语音与文本的双向实时转换,有效提升识别准确性、语音自然度和交互同步性。
技术关键词
双向转换方法 多模态环境 文本 频谱特征 风格 惯性传感器 生成噪声 双向转换装置 噪声抑制 数据 语音识别模型 视频 参数 生成触觉反馈 声学特征 执行语音识别 声码器 个性化语音
系统为您推荐了相关专利信息
1
模型训练方法、应答方法及相关产品
会话 文本 实体 模型训练方法 画像
2
一种基于统一语义空间的多模态媒资智能审核系统及方法
智能审核系统 语义 跨模态 对齐模块 文本特征向量
3
用于多模态多标签情感分析的互补和竞争平衡学习方法
学习方法 多标签 混合专家网络 融合特征 多模态情感分析
4
一种基于BERT模型的工程勘察报告自动生成系统及方法
BERT模型 自动生成系统 工程勘察数据 专业 命名实体识别
5
基于多模态大语言模型的再生物料回收方法、装置和设备
大语言模型 多模态 图谱 物料回收方法 编辑距离算法
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号