摘要
本发明公开了一种客户数据缺失值的补充方法及装置,用于金融领域和数据处理技术领域,该方法包括:识别客户数据集中存在缺失值的缺失数据记录;标记出每个缺失数据记录中的缺失特征;针对每一缺失特征,提取出存在该缺失特征的缺失值的数据记录作为抽样样本;确定与该缺失特征相关的多个相关特征;对由该缺失特征和相关特征组合得到的多维特征组合,进行特征维度的离散化处理得到联合经验分布函数;通过马尔科夫链蒙特卡洛算法生成与该缺失特征相关联的多维模拟数据;根据多维模拟数据与目标缺失数据记录的特征相似度,从多维模拟数据中选取出对应该缺失特征的补充数据。本发明用以提升客户数据缺失值的补充数据的精确度和可靠性。
技术关键词
马尔科夫链蒙特卡洛算法
经验分布函数
选取特征
斯皮尔曼相关系数
样本
特征值
皮尔逊相关系数
客户
计算机程序产品
抽样算法
处理器
可读存储介质
数值
数据处理技术
计算机设备
标记
模块
存储器
分箱