一种基于大模型的多模态语音识别方法、存储介质、电子设备及产品

正文

推荐专利

申请号：CN202510749396

申请日期：2025-06-06

公开号：CN120431933A

公开日期：2025-08-05

类型：发明专利

摘要

本申请涉及语音识别技术领域，具体提供了一种基于大模型的多模态语音识别方法、存储介质、电子设备及产品，该方法可以包括：对用户的原始语音信号进行预处理，得到处理后语音信号；将处理后语音信号对应的语音编码数据和历史对话数据输入到大语言模型中，得到处理后语音信号对应的文本向量；对处理后语音信号进行特征提取，得到语音特征向量；利用预先训练的语音识别模块对语音特征向量和文本向量拼接后的目标向量序列进行处理，得到文本序列；其中，语音识别模块包括预先训练的多个编码器层和多个解码器层；对文本序列进行清洗和格式化处理，得到原始语音信号对应的文本数据。本申请的一些实施例可以提升语音识别的精准度。

技术关键词

语音识别模块线性变换矩阵文本序列解码器语音识别方法编码器信号格式化计算机程序产品频域特征语音识别技术前馈神经网络电子设备处理器可读存储介质滤波数据时序

系统为您推荐了相关专利信息

基于温度检测的物联网温控管理系统及其装置

温控管理系统二维码管理序列检测温度检测模块溯源管理系统

目标区域安全监控方法、装置、电子设备与可读介质

异常对象视频帧监控视频图像编码区域安全监控

基于多策略灰狼鲸鱼算法的测试用例优先级排序方法

鲸鱼优化算法鲸鱼算法序列灰狼优化算法多策略

一种色坐标调制的Logistic映射加密方法

稀土发光纳米粒子加密方法坐标对称加密算法加权平均法

数据处理装置、方法、电子设备及存储介质

数据处理模块数据处理装置仿真数据仿真模型传感器

一种基于大模型的多模态语音识别方法、存储介质、电子设备及产品

站点导航

APP 下载