一种面向高速异常曝光场景的多模态大模型上下文理解方法

正文

推荐专利

申请号：CN202510660658

申请日期：2025-05-22

公开号：CN120182117B

公开日期：2025-09-09

类型：发明专利

摘要

本发明涉及智慧交通技术领域，公开了一种面向高速异常曝光场景的多模态大模型上下文理解方法，第一步，针对视频数据的复杂时空结构，采用旋转位置嵌入（RoPE）变体进行编码获得时序特征，第二步，将时序特征与文本特征结合，形成时序+文本的多模态数据输入，第三步，根据输入的多模态数据特征动态预测拉普拉斯金字塔分解核的权重，第四步，在特征金字塔的每一层对特征进行提炼和转换，逐层重建至原始分辨率，生成校正后的图像，第五步，在训练过程中，结合像素重建损失、对抗性损失和内核损失，优化模型参数，第六步，将校正后的图像输入事件理解模块，识别并分类场景中的各类事件，实现语义理解。

技术关键词

拉普拉斯金字塔时序特征生成器网络超网络联合损失函数文本特征向量多模态融合机制语义特征分类场景特征金字塔深度神经网络层级校正生成预测图像智慧交通技术分辨率

系统为您推荐了相关专利信息

基于文本-区域匹配的带有缺失标签场景下的多标签图像识别方法

图像识别方法视觉特征原型多层感知机联合损失函数

装饰纸在线质量判别算法及系统

多尺度装饰纸融合特征注意力模型 LBP纹理

基于结合边缘检测和语义分割的海陆分割方法及系统

边缘检测分割图像数据模型构建方法联合损失函数海陆分割方法

用于非易失性存储器的散热优化系统

非易失性存储器延时策略模式热管理策略访问存储器控制

一种基于贝叶斯优化CNN-Transformer的锂离子电池健康状态估算方法

锂离子电池老化电池健康状态超参数优化方法编码器充电电压曲线

一种面向高速异常曝光场景的多模态大模型上下文理解方法

站点导航

APP 下载