摘要
本发明公开了一种用于AI大模型调用的流量限制方法、装置、设备及介质,该方法包括:网关服务器在接收目标调用请求后,通过客户端标识和应用标识构建目标查询键名;若未缓存匹配的分布式限流器,则获取请求的目标调用等级;查询模型服务器维护的环形缓冲区,获取当前流量限制区段下该调用等级的剩余流量值,其中环形缓冲区按标准时长划分时间单元并映射请求队列,队列存储各等级调用请求;最后基于流量限制区段和剩余流量值构建目标分布式限流器,并转发请求至模型服务器。本发明通过动态计算剩余流量和智能构建限流器,实现了高精度、多等级自适应的流量控制,有效平衡大模型服务的资源分配与请求公平性,同时保障了系统的高效稳定运行。
技术关键词
分布式限流
环形缓冲区
查询模型
网关服务器
流量计数器
建立映射关系
标识
客户端
队列
可读存储介质
计算机
数值
电子设备
处理器通信
限流器
资源分配
识别模块
时效性
系统为您推荐了相关专利信息
网络协议栈
接口模块
模块配置方法
硬件抽象层
电路板设备
环形缓冲区
RDMA技术
深度神经网络模型
内核
节点
故障定位方法
子模块
数据采集模块
数据分析模型
数据分析模块