摘要
本申请提供了融合多模态数据的模型预训练优化方法及系统,涉及多模态技术领域,方法包括:在语音模态数据与其他模态数据获取后,分别在低分辨率与高分辨率两个尺度进行采样,生成对应的语音向量集合并计算不确定性度量;在第一分辨率尺度上对语音与其他模态进行全局对齐,并将该全局对齐结果传递至第二分辨率尺度执行细化校正,最终回传至第一分辨率尺度,从而形成多重网格式的往返迭代;通过实时监测观测噪声与状态噪声并将其融入不确定性度量,可针对高噪区段在训练时动态降低加权系数,而对低噪或稳定区段赋予更高权重,以强化有效特征;本申请能在多模态场景下自适应抑制噪声干扰并保留语音突变细节,具有更好的鲁棒性与泛化性能。
技术关键词
模型预训练
分辨率
语音
观测噪声
度量
方差信息
网格式
噪声条件
抑制噪声干扰
校正
多模态技术
突发噪声
数据存储
动态
注意力
采样模块
系统为您推荐了相关专利信息
视频监控信息
状态评价方法
学生
关键词
学习监督技术
小麦收割机
金属接近传感器
车载电脑
数据处理模块
控制系统
GPRS技术
解析方法
汇总服务器
图像识别算法
高分辨率摄像头