一种基于自信息测度的机器学习高价值数据子集生成方法

正文

推荐专利

申请号：CN202411654827

申请日期：2024-11-19

公开号：CN119537896A

公开日期：2025-02-28

类型：发明专利

摘要

本发明提供了一种基于自信息测度的机器学习高价值数据子集生成方法，包括对数据集中的各个数据点或事件建立概率模型，据所确定的模型复杂度和数据量的大小，选择参数估计方法，使用估计得到的模型参数估计这些数据点发生的概率；对于数据集中的每一个数据点，根据其发生的概率，使用自信息量函数来计算其自信息量；通过所得到的自信息量对数据进行价值评估，得到各数据点的价值，高价值数据点构成的集合作为高价值数据子集，用于进一步的机器学习模型训练。本发明的方法有效地利用信息论中的自信息原理来量化和评估数据价值，通过精确测量数据的不确定性和稀缺性，筛选出最能增加模型训练效率的数据子集。

技术关键词

参数估计方法生成方法机器学习模型训练正态分布模型伽马分布模型马尔可夫模型计算机可读取存储介质复杂度泊松分布模型贝叶斯信息准则训练机器学习模型矩估计方法概率密度函数数据处理单元 EM算法模型误差排序算法处理器

系统为您推荐了相关专利信息

一种恶劣天气下的飞行计划动态生成方法及系统

动态生成方法动态生成模型航空器计划气象雷达数据

基于人工智能的文本生成方法、装置、设备及存储介质

图像特征向量文本生成模型文本生成方法特征提取模块输出模块

基于智能体的放疗计划生成系统、方法、设备及存储介质

放疗计划生成系统执行计划优化生成方法参数分析工具

一种水处理基于AI技术的污泥浓度智能一体机系统

智能一体机污泥浓度计服务器集群物联网模块 DTU设备

一种稳定扩散模型的提示词生成方法、装置及电子设备

生成方法自然语言图像管理计算资源文本

一种基于自信息测度的机器学习高价值数据子集生成方法

站点导航

APP 下载