摘要
本发明涉及一种基于形状大模型的样本均衡方法,包括以下步骤S1、对样貌特征进行提取;并将得到特征进行拼接,拼接得到的特征向量即为样貌特征;S2、类内聚类;将每一类中的样本,基于样貌特征,使用k‑means算法进行聚类;S3、类间子类聚类;每一类经过k‑means聚类后获得子类,将子类的中心再进行聚类;S4、计算各子类增删数量;S5、样本精简以及样本增强。本发明通过训练出基于形状的大模型,再结合文本与图像间相互转换的信息,生成具有较强可分性的特征,结合机器学习算法筛选样本,使得样本在类别与样貌上分布均匀;通过均衡各类别与样貌的样本,获得了质量更高,更具代表性的的样本,提升了训练数据的质量,从而提高了模型效果的上限。
技术关键词
均衡方法
样本
聚类
预处理算法
机器学习算法
文本
图像
工位
训练集
远距离
线状
数据
参数
片状
系统为您推荐了相关专利信息
静态代码缺陷
动静态
分层卷积神经网络
动态
协议特征
模拟系统
移动终端
智能识别模块
神经网络模型构建
基础