摘要
本发明公开一种人工智能模型训练数据集构建方法及系统,涉及涉及人工智能模型训练技术领域,所述方法包括:为构建系统预设多个数据源,并将不同数据源获取到的数据进行分布式存储;为分布式存储架构创建一个均衡提取模型集群,并对创建好的均衡提取模型集群进行协同训练;利用训练好的模型集群提取出分布均衡的存储数据,整理为原始数据集;对原始数据集中的数据进行采样,得到高质量训练样本;将得到的高质量训练样本整理成训练数据集后进行持久化,待人工智能模型训练时取用。该方法构建出的训练数据集能够充分反映现实世界的数据分布,使模型学习到正确的特征和规律,从而提高模型的准确性。
技术关键词
人工智能模型训练
数据集构建方法
数据集构建系统
数据分布
分布式存储架构
集群
节点
子模块
样本
采样模块
参数
数据格式
服务器
数据获取模块
分布特征
模型更新
系统为您推荐了相关专利信息
样本生成方法
融合方法
图像数据处理技术
分类阈值
生成融合图像
信道模拟方法
噪声数据
模拟模型
噪声方差
大气湍流数据
数据预取方法
执行数据预取
指令
处理器
替换算法
刺绣图像
图像生成模型
融合注意力机制
代表
风格
车道线识别方法
注意力机制
深度学习网络
场景
车辆