摘要
本申请涉及语音识别技术领域,具体提供了一种基于大模型的多模态语音识别方法、存储介质、电子设备及产品,该方法可以包括:对用户的原始语音信号进行预处理,得到处理后语音信号;将处理后语音信号对应的语音编码数据和历史对话数据输入到大语言模型中,得到处理后语音信号对应的文本向量;对处理后语音信号进行特征提取,得到语音特征向量;利用预先训练的语音识别模块对语音特征向量和文本向量拼接后的目标向量序列进行处理,得到文本序列;其中,语音识别模块包括预先训练的多个编码器层和多个解码器层;对文本序列进行清洗和格式化处理,得到原始语音信号对应的文本数据。本申请的一些实施例可以提升语音识别的精准度。
技术关键词
语音识别模块
线性变换矩阵
文本
序列
解码器
语音识别方法
编码器
信号
格式化
计算机程序产品
频域特征
语音识别技术
前馈神经网络
电子设备
处理器
可读存储介质
滤波
数据
时序
系统为您推荐了相关专利信息
温控管理系统
二维码管理
序列检测
温度检测模块
溯源管理系统
异常对象
视频帧
监控视频图像
编码
区域安全监控
鲸鱼优化算法
鲸鱼算法
序列
灰狼优化算法
多策略
稀土发光纳米粒子
加密方法
坐标
对称加密算法
加权平均法
数据处理模块
数据处理装置
仿真数据
仿真模型
传感器