基于背景补偿与适配器微调的多模态视听事件定位方法

正文

推荐专利

申请号：CN202510684888

申请日期：2025-05-26

公开号：CN120873417A

公开日期：2025-10-31

类型：发明专利

摘要

本申请涉及一种基于背景补偿与适配器微调的多模态视听事件定位方法，其中，方法包括：利用多模态大语言模型和大型语言模型生成并精炼帧级视觉背景描述；通过引入采样率可控的适配器模块，在冻结CLIP主干参数的基础上微调视觉、文本和音频编码器，实现轻量级迁移学习；构建融合Mamba时序建模与跨模态注意机制的多模态时序融合模块，整合视觉、音频和背景语义特征，并通过混合专家网络与可学习提示增强跨模态表征；设计结合标签平滑交叉熵和均方误差对比损失的优化机制，支持全监督与弱监督训练方式，提升模型的跨模态语义一致性与事件分类准确性。

技术关键词

预训练模型事件定位方法混合损失函数背景补偿适配器音频编码器音频特征大语言模型混合专家网络融合特征多模态文本编码器视听视频帧图像时序语义注意力机制模块

基于背景补偿与适配器微调的多模态视听事件定位方法

站点导航

APP 下载