摘要
本发明公开了一种基于大模型适配的多模态语义分割方法,首先对于每一对的输入数据,以RGB数据的曝光时间戳为基准,以不同的时间尺度划分事件信息,随后将事件处理为体素,和视频帧分别输入多时空尺度事件嵌入模块与SAM主干,然后将经过多时空尺度事件嵌入模块提取的时间特征输入SAM事件适配器中,与SAM中的图像信息进行交互,得到富含高质量运动信息的特征。最后特征将被输入简单的语义分割头来生成语义分割结果。本发明是端到端的,整体可以直接进行训练,之后可以使用训练的模型来处理事件‑RGB场景下的语义分割问题。本发明解决了由于RGB信息在极端场景下信息丢失的问题,并达到了比以往工作更优秀的语义分割结果。
技术关键词
语义分割方法
注意力
多时空尺度
事件特征
适配器
数据编码
模块
语义特征
线性
Sigmoid函数
图像
模态特征
补丁
检测头
更新网络参数
矩阵
网格
系统为您推荐了相关专利信息
医用器械消毒
追溯管理系统
医疗器械
零知识证明协议
分布式文件系统
序列推荐方法
注意力机制
中文命名实体识别方法
随机噪声
噪声样本
工程图纸
船舶
辅助设计方法
文本
多头注意力机制
数据标注系统
多维度分类标签
模块
动态数据拆分
语义