样本数据的筛选方法、装置、计算机设备及存储介质

正文

推荐专利

申请号：CN202411598345

申请日期：2024-11-08

公开号：CN119719329A

公开日期：2025-03-28

类型：发明专利

摘要

本申请涉及机器学习技术领域，公开了一种样本数据的筛选方法、装置、计算机设备及存储介质。方法包括：获取多个第一文本数据，将第一文本数据输入至待训练模型，得到第一语义编码和第一概率分布；根据当前语料库与第一语义编码，对第一文本数据进行匹配，得到语义相近的多个第二文本数据，并确定得到多个第二标注数据；根据第一概率分布与多个第二标注数据，计算第一文本数据与多个第二文本数据之间的概率差异，得到第一文本数据的价值分；根据第一文本数据的价值分，对第一文本数据进行处理，得到样本数据。通过利用概率差异进行筛选，更加高效、便捷地获取有利于训练待训练模型的样本数据。

技术关键词

文本筛选方法样本计算机设备语义机器学习技术处理器可读存储介质数据获取模块编码器筛选装置匹配模块分析模块分类器存储器注意力

系统为您推荐了相关专利信息

基于分支覆盖的自动化软件测试平台

软件测试平台覆盖准则分支测试用例管理分析模块

一种基于消费者感官评价的烟盒设计优化方法

设计优化方法决策树模型感官烟盒数据一致性检查

用于养殖场的环境感知系统及方法

活动特征环境感知系统动物老鼠地貌特征

一种基于三维探地雷达的道路隐蔽病害识别、定位及分割方法

三维探地雷达二维灰度图像分割方法坐标点高斯滤波方法

基于声誉机制的联邦学习方法、装置、存储介质及设备

客户端联邦学习方法中心服务器联邦学习系统模型更新

样本数据的筛选方法、装置、计算机设备及存储介质

站点导航

APP 下载