基于人工智能的语音交互方法、装置、设备及介质

正文

推荐专利

申请号：CN202510596507

申请日期：2025-05-08

公开号：CN120319217A

公开日期：2025-07-15

类型：发明专利

摘要

本发明可应用于智慧医疗和金融领域，公开了一种基于人工智能的语音交互方法、装置、设备及介质，包括：将待合成文本或待识别语音输入语音交互模型中，语音交互模型包括第一前处理层、第二前处理层、共享编码器、第一输出层和第二输出层；共享编码器包括Transformer模块；基于第一前处理层对待识别语音进行特征提取，获得声学特征；基于Transformer模块对声学特征进行处理，获得音素序列；第一输出层对音素序列进行识别，获得目标文本；第二前处理层对待合成文本进行特征提取，得到文本特征，且进行特征对齐，得到对齐特征；基于Transformer模块对对齐特征进行处理，得到梅尔频谱；基于第二输出层得到合成语音。

技术关键词

语音交互方法声学特征交互模型文本编码器上下文特征前馈神经网络注意力序列语音交互装置动态规划算法数据输入模块语音识别模块可读存储介质特征提取模块解码算法对齐模块

系统为您推荐了相关专利信息

基于大模型和微调的虚假信息及评论的自动检测与控制方法及系统

上下文特征图像大语言模型矩阵文本编码器

一种基于3D点云的隧道电缆缺陷检测方法及相关设备

电缆缺陷检测方法上下文特征隧道卷积模块矩阵

一种基于语义分析的人机交互方法、装置及电子设备

关键字人机交互方法语义语法模型文本

语音识别后的文本纠错方法、装置、设备及存储介质

自动语音识别系统文本识别文本纠错方法语音特征数据

一种基于视觉语言交互式学习的AI图像检测模型优化方法

视觉特征图像检测模型交互式学习交叉注意力机制图像解码器

基于人工智能的语音交互方法、装置、设备及介质

站点导航

APP 下载