融合多模态数据的模型预训练优化方法及系统

正文

推荐专利

申请号：CN202510743555

申请日期：2025-06-05

公开号：CN120579141A

公开日期：2025-09-02

类型：发明专利

摘要

本申请提供了融合多模态数据的模型预训练优化方法及系统，涉及多模态技术领域，方法包括：在语音模态数据与其他模态数据获取后，分别在低分辨率与高分辨率两个尺度进行采样，生成对应的语音向量集合并计算不确定性度量；在第一分辨率尺度上对语音与其他模态进行全局对齐，并将该全局对齐结果传递至第二分辨率尺度执行细化校正，最终回传至第一分辨率尺度，从而形成多重网格式的往返迭代；通过实时监测观测噪声与状态噪声并将其融入不确定性度量，可针对高噪区段在训练时动态降低加权系数，而对低噪或稳定区段赋予更高权重，以强化有效特征；本申请能在多模态场景下自适应抑制噪声干扰并保留语音突变细节，具有更好的鲁棒性与泛化性能。

技术关键词

模型预训练分辨率语音观测噪声度量方差信息网格式噪声条件抑制噪声干扰校正多模态技术突发噪声数据存储动态注意力采样模块

系统为您推荐了相关专利信息

路由决策方法、装置、电子设备及计算机程序产品

发送端决策方法接收端域名特征网络节点

风险数据识别及模型训练方法、装置及电子设备

文本数据识别方法关键词模型训练方法语音

学生课堂状态评价方法、装置、设备及存储介质

视频监控信息状态评价方法学生关键词学习监督技术

小麦收割机的作业速度自适应控制系统

小麦收割机金属接近传感器车载电脑数据处理模块控制系统

一种基于GPRS技术的图像动态信息采集汇总解析方法

GPRS技术解析方法汇总服务器图像识别算法高分辨率摄像头

融合多模态数据的模型预训练优化方法及系统

站点导航

APP 下载