一种模态失真语音识别方法及系统

AITNT
正文
推荐专利
一种模态失真语音识别方法及系统
申请号:CN202511046685
申请日期:2025-07-29
公开号:CN120544547B
公开日期:2025-10-17
类型:发明专利
摘要
本发明公开了一种模态失真语音识别方法及系统。本发明通过簇权重提取网络计算视听特征的软分配,并结合聚类中心矩阵生成每层的提示向量;采用前缀提示策略或前置提示策略将提示向量插入到自注意力层中;在特征解码器中自回归生成输出序列,并计算其与真实标签之间的交叉熵损失;将每种任务的提示向量拆分为通用子空间表示和特定子空间表示,并对三种任务的特定子空间表示进行对比损失计算;加权融合交叉熵损失和对比损失,之后进行反向传播,联合更新所有提示向量和语言模型的参数。本发明在减少模态缺失提示与无失真提示差异的同时,增加了不同模态任务的提示之间的差异,从而改善了音频‑视频多模态语言模型在不同模态任务下的识别效果。
技术关键词
语音识别方法 音频编码器 多模态 视频编码器 注意力 视听 音频失真 时序特征 解码器 策略 聚类 音视频 语音识别系统 矩阵 随机梯度下降 序列
系统为您推荐了相关专利信息
1
一种基于多尺度特征融合的红外小目标检测方法
多尺度特征融合 空间金字塔池化 更新网络参数 生成多尺度 高层次
2
一种智能化电力机房缺陷识别方法及系统
缺陷识别方法 机房 缺陷识别系统 神经网络模型识别 训练样本集
3
一种利用AI多模态六维之课堂效果评估与分析的方法
融合神经网络 学生 学习算法 计算机可读指令 课堂互动系统
4
一种耐张线夹智能锻造协同控制系统
协同控制系统 三维温度场 浮动阈值 空间分布规律 锻锤
5
基于大模型的客户语音分析系统
语音分析系统 矩阵 客户 文本 语义特征
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号