一种面向RAG的嵌入服务弹性部署方法

AITNT
正文
推荐专利
一种面向RAG的嵌入服务弹性部署方法
申请号:CN202511368928
申请日期:2025-09-24
公开号:CN120872615B
公开日期:2025-11-28
类型:发明专利
摘要
本发明公开了一种面向RAG的嵌入服务弹性部署方法,属于计算机资源配置技术领域。该方法首先获取适用于RAG场景的嵌入模型并构建嵌入服务,通过自动化资源分析批量测试不同资源配置参数,筛选出满足服务质量要求的最优资源配置;其次集成RPS监控与动态批处理机制,结合GPU资源碎片化优化算法与三级候选GPU调度策略;随后根据推理请求负载触发混合扩缩容机制,形成协同调度;最终通过轮询机制分发推理请求并持续优化服务性能。本发明通过自动化资源分析、GPU资源碎片化优化与混合扩缩容策略的协同作用,可显著提升GPU资源利用率与嵌入服务的性能,有效支撑RAG场景下高并发、低延迟的推理需求。
技术关键词
多处理器 资源配置参数 策略 管理中心 批量 资源分配 资源配置技术 容器 端口 动态 钩子技术 线程监控 设备架构 轮询机制 队列 配置系统 算法
系统为您推荐了相关专利信息
1
用于钻井泥浆处理的多设备协同控制方法及装置
沉淀罐 混合罐设备 协同控制方法 钻井泥浆 深度强化学习
2
一种新型燃料电池电压采集精度软件补偿校准方法
补偿校准方法 新型燃料电池 电压 信号源 校准算法
3
基于深度强化学习的超密集车联网自适应资源分配方法
资源分配方法 深度强化学习 车辆 AC算法 链路
4
资源分配的运筹优化方法、系统、设备、存储介质及产品
工作流执行 资源分配策略 生成可执行 变量 节点
5
录制导航一体机的车辆状态数据处理方法及系统
车辆部件 意图 状态数据处理方法 静态特征 图片
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号