摘要
本发明公开了一种AI大模型的优化方法、系统、终端设备及存储介质,所述方法通过资源预测模型对各子模型实时负载数据进行预测,预测未来一段时间内各子模型的资源需求,进而确定资源分配策略,并通过行为预测模型对实时用户行为数据进行预测,生成子模型请求预测结果,通过缓存一致性协议和缓存策略对子模型请求预测结果确定预加载策略,最后利用资源分配策略动态且合理地调整资源分配,减少计算资源的损耗,并利用预加载策略将AI大模型的各子模型进行预加载,减少模型加载时间,实现提高AI大模型中各子模型的响应速度和吞吐量,解决了目前很多子模型因响应速度慢和吞吐率低导致用户的使用体验较差的问题。
技术关键词
缓存一致性协议
资源分配策略
负载特征数据
预测模型训练
缓存策略
状态更新
缓存淘汰策略
模型超参数
序列
模型训练模块
数据采集模块
终端设备
训练集
注意力
指标
系统为您推荐了相关专利信息
模型优化方法
卸载策略
时延
深度强化学习
视点渲染
神经网络模型
预测模型训练方法
网格
样本
数据获取模块
风电功率预测模型
历史气象数据
多层感知机
风电功率预测技术
预测误差
平衡车控制方法
PID控制参数
性能预测模型
预测模型训练
PID控制器
电池单体
电池状态参数
车辆状态参数
故障识别方法
电池组荷电状态