聚合语义标记角度的高效视觉Transformer方法

AITNT
正文
推荐专利
聚合语义标记角度的高效视觉Transformer方法
申请号:CN202410811310
申请日期:2024-06-21
公开号:CN118710964A
公开日期:2024-09-27
类型:发明专利
摘要
本发明涉及计算机视觉技术领域,尤其涉及聚合语义标记角度的高效视觉Transformer方法。本发明包括以下步骤:S1:对输入图像进行预处理,将其划分为多个图像补丁;S2:采用标记感知位置编码模块对图像补丁进行编码。本发明结合了标记感知位置编码以及一个自适应聚类的语义标记注意力模块,这个灵活的、对查询敏感的稀疏注意力框架,允许每个查询仅对最相关的少数键值对进行关注;同时通过标记感知位置编码模块将标记附近领域的其他标记进行聚合,来减少标记分组后的信息损失;空间门控前馈网络简化了模型参数的同时提升了空间信息表达,最终实现了性能和计算效率的平衡,优化了模型对重要视觉信息的捕获与表示能力的同时减少了计算量和参数量。
技术关键词
语义 标记 局部敏感哈希技术 编码模块 注意力机制 大规模图像数据 补丁 表达式 线性变换矩阵 计算机视觉技术 网络 聚类方法 分支 参数 图像处理 键值
系统为您推荐了相关专利信息
1
基于深度学习的眼底影像识别方法、系统及设备
影像识别方法 影像识别系统 便携式手持终端 图像识别模块 眼底图像特征
2
基于余弦相似度匹配的零样本红外目标识别方法及系统
图像 特征提取网络 解码器结构 特征提取模块 编码器
3
图像复原方法、设备及计算机存储介质
编码特征 图像复原方法 像素 计算机存储介质 语义
4
一种基于改进YOLOv8的输电线路异物检测方法
卷积模块 空间金字塔池化 检测网络模型 上下文特征 通道注意力机制
5
栅格地图的生成方法、装置、介质和设备
轮廓信息 障碍物 栅格地图 自主移动设备 语义
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号