摘要
本申请涉及机器学习技术领域,公开了一种样本数据的筛选方法、装置、计算机设备及存储介质。方法包括:获取多个第一文本数据,将第一文本数据输入至待训练模型,得到第一语义编码和第一概率分布;根据当前语料库与第一语义编码,对第一文本数据进行匹配,得到语义相近的多个第二文本数据,并确定得到多个第二标注数据;根据第一概率分布与多个第二标注数据,计算第一文本数据与多个第二文本数据之间的概率差异,得到第一文本数据的价值分;根据第一文本数据的价值分,对第一文本数据进行处理,得到样本数据。通过利用概率差异进行筛选,更加高效、便捷地获取有利于训练待训练模型的样本数据。
技术关键词
文本
筛选方法
样本
计算机设备
语义
机器学习技术
处理器
可读存储介质
数据获取模块
编码器
筛选装置
匹配模块
分析模块
分类器
存储器
注意力
系统为您推荐了相关专利信息
软件测试平台
覆盖准则
分支
测试用例管理
分析模块
设计优化方法
决策树模型
感官
烟盒
数据一致性检查
三维探地雷达
二维灰度图像
分割方法
坐标点
高斯滤波方法
客户端
联邦学习方法
中心服务器
联邦学习系统
模型更新