摘要
本发明公开了一种基于混合专家的视觉语言模型的令牌路由增强方法,本发明是即插即用的,可以在涉及基于混合专家架构的纯视觉模态的模型或者包含视觉模态的多模态模型上实现视觉令牌的高效路由。模态特定的路由策略使得本发明能够识别不同模态信息的内在分布,从而分治地进行视觉和其他模态的令牌路由。此外本发明通过令牌路由的概率方差来区分视觉中重要的尾部前景令牌和冗余的头部背景令牌,有助于挖掘视觉信息。并且通过增强各专家对于视觉中重要的尾部前景令牌的学习,使得本发明能够更加高效地捕捉和学习视觉中的重要信息。本发明在纯视觉模态的骨干模型和包含视觉模态的多模态骨干模型上实现了更加先进性能的同时,保持了推理参数量不变。
技术关键词
令牌
视觉
负载均衡策略
序列
图像
计算机电子设备
输出特征
词嵌入模型
生成数据集
前馈神经网络
存储计算机程序
路由器
文本识别
样本
处理器
指令
可读存储介质
系统为您推荐了相关专利信息
车辆运行轨迹
组网优化方法
路段
移动监测系统
地图匹配算法
输电线路覆冰
输电线路可视化
监控方法
成像
相机标定参数