摘要
本发明公开了一种模态失真语音识别方法及系统。本发明通过簇权重提取网络计算视听特征的软分配,并结合聚类中心矩阵生成每层的提示向量;采用前缀提示策略或前置提示策略将提示向量插入到自注意力层中;在特征解码器中自回归生成输出序列,并计算其与真实标签之间的交叉熵损失;将每种任务的提示向量拆分为通用子空间表示和特定子空间表示,并对三种任务的特定子空间表示进行对比损失计算;加权融合交叉熵损失和对比损失,之后进行反向传播,联合更新所有提示向量和语言模型的参数。本发明在减少模态缺失提示与无失真提示差异的同时,增加了不同模态任务的提示之间的差异,从而改善了音频‑视频多模态语言模型在不同模态任务下的识别效果。
技术关键词
语音识别方法
音频编码器
多模态
视频编码器
注意力
视听
音频失真
时序特征
解码器
策略
聚类
音视频
语音识别系统
矩阵
随机梯度下降
序列
系统为您推荐了相关专利信息
多尺度特征融合
空间金字塔池化
更新网络参数
生成多尺度
高层次
缺陷识别方法
机房
缺陷识别系统
神经网络模型识别
训练样本集
融合神经网络
学生
学习算法
计算机可读指令
课堂互动系统
协同控制系统
三维温度场
浮动阈值
空间分布规律
锻锤