摘要
本发明提供了一种基于自信息测度的机器学习高价值数据子集生成方法,包括对数据集中的各个数据点或事件建立概率模型,据所确定的模型复杂度和数据量的大小,选择参数估计方法,使用估计得到的模型参数估计这些数据点发生的概率;对于数据集中的每一个数据点,根据其发生的概率,使用自信息量函数来计算其自信息量;通过所得到的自信息量对数据进行价值评估,得到各数据点的价值,高价值数据点构成的集合作为高价值数据子集,用于进一步的机器学习模型训练。本发明的方法有效地利用信息论中的自信息原理来量化和评估数据价值,通过精确测量数据的不确定性和稀缺性,筛选出最能增加模型训练效率的数据子集。
技术关键词
参数估计方法
生成方法
机器学习模型训练
正态分布模型
伽马分布模型
马尔可夫模型
计算机可读取存储介质
复杂度
泊松分布模型
贝叶斯信息准则
训练机器学习模型
矩估计方法
概率密度函数
数据处理单元
EM算法
模型误差
排序算法
处理器
系统为您推荐了相关专利信息
动态生成方法
动态生成模型
航空器
计划
气象雷达数据
图像特征向量
文本生成模型
文本生成方法
特征提取模块
输出模块
放疗计划生成系统
执行计划优化
生成方法
参数
分析工具
智能一体机
污泥浓度计
服务器集群
物联网模块
DTU设备