摘要
本发明提供了一种面向AI大模型的动态路由转发方法及装置。构建中心化调度器与分布式执行节点的协同架构;实时采集各模型实例的多维性能指标,多维性能指标包括GPU利用率、显存占用和推理延迟;基于自然语言处理技术提取输入请求的关键特征,关键特征包括输入文本长度、Token数量及任务类型;构建基于熵权法的负载评估模型,结合实例实时负载状态与请求特征实施智能路由决策;基于多级阈值机制进行实例故障检测与自适应容错处理。本发明针对AI大模型多实例部署的特定需求,提供了更智能、高效的动态路由方法。通过实时监测模型实例的负载状态和性能指标,结合请求特征进行智能调度,提升了资源利用率和服务质量,同时降低了运维复杂度和管理成本。
技术关键词
转发方法
阈值机制
故障检测
自然语言
标签识别机制
动态
实例管理模块
决策
全生命周期管理
健康状态数据
协议解析器
故障预测模型
复杂度特征
负载均衡策略
归一化算法
强化学习算法
退避策略
低延迟
文本
处理器
系统为您推荐了相关专利信息
动态数据查询
可视化系统
自然语言
智能可视化
消歧技术
自然语言技术
计算机执行指令
随机森林模型
客户
文本