摘要
本发明公开了一种面向Spark SQL的智能查询优化方法及系统,方法包括:获取已运行查询的基数信息,根据基数信息构建成本比较器和基数比较器模型的训练数据集;提取训练数据集的特征,并分别训练成本比较器和基数比较器的网络模型;输入查询,通过束搜索算法与递归搜索自底向上地生成候选执行计划,并使用成本比较器模型得到成本最低的执行计划;使用基数比较器模型为执行计划中的连接操作选择具体的连接方式,得到可供Spark SQL运行的最终执行计划。本发明能够高效生成低成本的执行计划,减少查询中连接操作的数据量,从而极大地降低查询时间,优化查询性能。
技术关键词
计划
查询优化方法
顶点
搜索算法
表格
查询优化系统
数据分布
列表
逻辑
直方图
样本
模块
内存
模型更新
处理器
计算机设备
优化器
超参数
可读存储介质