一种模态失真语音识别方法及系统

正文

推荐专利

一种模态失真语音识别方法及系统

申请号：CN202511046685

申请日期：2025-07-29

公开号：CN120544547B

公开日期：2025-10-17

类型：发明专利

摘要

本发明公开了一种模态失真语音识别方法及系统。本发明通过簇权重提取网络计算视听特征的软分配，并结合聚类中心矩阵生成每层的提示向量；采用前缀提示策略或前置提示策略将提示向量插入到自注意力层中；在特征解码器中自回归生成输出序列，并计算其与真实标签之间的交叉熵损失；将每种任务的提示向量拆分为通用子空间表示和特定子空间表示，并对三种任务的特定子空间表示进行对比损失计算；加权融合交叉熵损失和对比损失，之后进行反向传播，联合更新所有提示向量和语言模型的参数。本发明在减少模态缺失提示与无失真提示差异的同时，增加了不同模态任务的提示之间的差异，从而改善了音频‑视频多模态语言模型在不同模态任务下的识别效果。

技术关键词

语音识别方法音频编码器多模态视频编码器注意力视听音频失真时序特征解码器策略聚类音视频语音识别系统矩阵随机梯度下降序列

系统为您推荐了相关专利信息

一种基于多尺度特征融合的红外小目标检测方法

多尺度特征融合空间金字塔池化更新网络参数生成多尺度高层次

一种智能化电力机房缺陷识别方法及系统

缺陷识别方法机房缺陷识别系统神经网络模型识别训练样本集

一种利用AI多模态六维之课堂效果评估与分析的方法

融合神经网络学生学习算法计算机可读指令课堂互动系统

一种耐张线夹智能锻造协同控制系统

协同控制系统三维温度场浮动阈值空间分布规律锻锤

基于大模型的客户语音分析系统

语音分析系统矩阵客户文本语义特征

一种模态失真语音识别方法及系统

站点导航

APP 下载