摘要
本发明涉及智慧交通技术领域,公开了一种面向高速异常曝光场景的多模态大模型上下文理解方法,第一步,针对视频数据的复杂时空结构,采用旋转位置嵌入(RoPE)变体进行编码获得时序特征,第二步,将时序特征与文本特征结合,形成时序+文本的多模态数据输入,第三步,根据输入的多模态数据特征动态预测拉普拉斯金字塔分解核的权重,第四步,在特征金字塔的每一层对特征进行提炼和转换,逐层重建至原始分辨率,生成校正后的图像,第五步,在训练过程中,结合像素重建损失、对抗性损失和内核损失,优化模型参数,第六步,将校正后的图像输入事件理解模块,识别并分类场景中的各类事件,实现语义理解。
技术关键词
拉普拉斯金字塔
时序特征
生成器网络
超网络
联合损失函数
文本特征向量
多模态融合机制
语义特征
分类场景
特征金字塔
深度神经网络
层级
校正
生成预测图像
智慧交通技术
分辨率
系统为您推荐了相关专利信息
图像识别方法
视觉特征
原型
多层感知机
联合损失函数
边缘检测
分割图像数据
模型构建方法
联合损失函数
海陆分割方法
非易失性存储器
延时策略
模式
热管理策略
访问存储器控制
锂离子电池老化
电池健康状态
超参数优化方法
编码器
充电电压曲线