摘要
本发明属于数据检索领域,公开了一种面向关联数据集的差异度最大化数据表组合查询方法,数据处理阶段首先对给定的表格数据集进行数据处理,建立特征‑数据列索引,根据该索引发现表格数据集中的可连接表,同时构建数据表连接图索引,预计算各表格之间的连接信息;数据查询阶段根据给定的样例查询表和连接列集合,在特征‑数据列索引中搜索候选连接列集合,获取候选数据表集合,根据给定预算,选取能够与样例查询表连接,并且使差异度最大的数据表集合。本发明首次提出了在关联数据集中搜索可连接数据表组合的方法,利用特征索引过滤可连接数据表,建立数据表连接图发现数据表之间的的连接路径,并返回预算约束下使差异度最大化的数据表集合。
技术关键词
查询方法
表格
数据
索引
局部敏感哈希
特征提取算法
阶段
列表
唯一性
特征值
顶点
元素
关系
系统为您推荐了相关专利信息
节点
信息处理方法
表格
大语言模型
数据变更信息
空间分析服务
配置工具
地图数据管理
接口
数据可视化
事件处置方法
着色
矩阵
计算机程序指令
处置装置
效能评估方法
装备
统计推断方法
数据项
匹配误差