摘要
本发明公开了一种基于机器学习的数据表复合主键发现方法,其步骤包括:1)对于一样本集,首先识别每一样本的最小UCC的列表;其中,每一样本为一数据表,将不包含重复内容且可用于索引的组合列称为唯一组合列UCC,将不包含其他UCC的UCC定义为最小唯一组合列,即最小UCC;2)对样本的每一最小UCC进行特征提取组合,得到该样本的每一最小UCC的特征向量;3)利用各样本的特征向量训练分类器;4)针对一个待处理数据表A,获取数据表A的各最小UCC对应的特征向量并输入随机森林分类器,得到数据表A的用于生成复合主键的最小UCC,据此生成数据表A的复合主键。本发明仅靠数据表内在信息即可实现复合主键的识别。
技术关键词
训练分类器
样本
随机森林
列表
数据清洗技术
存储计算机程序
文本
采样方法
处理器
算法
可读存储介质
索引
存储器
定义
服务器
指令
系统为您推荐了相关专利信息
ARIMA模型
荷电状态估算
随机森林模型
特征工程
LSTM模型
预测类别
分类网络
真实人声
语音交互方法
机器对话
大语言模型
语音
模型训练方法
数据
车辆控制指令
经验模态分解算法
变压器箱体
变压器绕组
样条
参数