摘要
本申请涉及一种基于背景补偿与适配器微调的多模态视听事件定位方法,其中,方法包括:利用多模态大语言模型和大型语言模型生成并精炼帧级视觉背景描述;通过引入采样率可控的适配器模块,在冻结CLIP主干参数的基础上微调视觉、文本和音频编码器,实现轻量级迁移学习;构建融合Mamba时序建模与跨模态注意机制的多模态时序融合模块,整合视觉、音频和背景语义特征,并通过混合专家网络与可学习提示增强跨模态表征;设计结合标签平滑交叉熵和均方误差对比损失的优化机制,支持全监督与弱监督训练方式,提升模型的跨模态语义一致性与事件分类准确性。
技术关键词
预训练模型
事件定位方法
混合损失函数
背景补偿
适配器
音频编码器
音频特征
大语言模型
混合专家网络
融合特征
多模态
文本编码器
视听
视频帧
图像
时序
语义
注意力机制
模块