一种基于自信息测度的机器学习高价值数据子集生成方法

AITNT
正文
推荐专利
一种基于自信息测度的机器学习高价值数据子集生成方法
申请号:CN202411654827
申请日期:2024-11-19
公开号:CN119537896A
公开日期:2025-02-28
类型:发明专利
摘要
本发明提供了一种基于自信息测度的机器学习高价值数据子集生成方法,包括对数据集中的各个数据点或事件建立概率模型,据所确定的模型复杂度和数据量的大小,选择参数估计方法,使用估计得到的模型参数估计这些数据点发生的概率;对于数据集中的每一个数据点,根据其发生的概率,使用自信息量函数来计算其自信息量;通过所得到的自信息量对数据进行价值评估,得到各数据点的价值,高价值数据点构成的集合作为高价值数据子集,用于进一步的机器学习模型训练。本发明的方法有效地利用信息论中的自信息原理来量化和评估数据价值,通过精确测量数据的不确定性和稀缺性,筛选出最能增加模型训练效率的数据子集。
技术关键词
参数估计方法 生成方法 机器学习模型训练 正态分布模型 伽马分布模型 马尔可夫模型 计算机可读取存储介质 复杂度 泊松分布模型 贝叶斯信息准则 训练机器学习模型 矩估计方法 概率密度函数 数据处理单元 EM算法 模型误差 排序算法 处理器
系统为您推荐了相关专利信息
1
一种恶劣天气下的飞行计划动态生成方法及系统
动态生成方法 动态生成模型 航空器 计划 气象雷达数据
2
基于人工智能的文本生成方法、装置、设备及存储介质
图像特征向量 文本生成模型 文本生成方法 特征提取模块 输出模块
3
基于智能体的放疗计划生成系统、方法、设备及存储介质
放疗计划生成系统 执行计划优化 生成方法 参数 分析工具
4
一种水处理基于AI技术的污泥浓度智能一体机系统
智能一体机 污泥浓度计 服务器集群 物联网模块 DTU设备
5
一种稳定扩散模型的提示词生成方法、装置及电子设备
生成方法 自然语言 图像 管理计算资源 文本
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号