样本数据的筛选方法、装置、计算机设备及存储介质

AITNT
正文
推荐专利
样本数据的筛选方法、装置、计算机设备及存储介质
申请号:CN202411598345
申请日期:2024-11-08
公开号:CN119719329A
公开日期:2025-03-28
类型:发明专利
摘要
本申请涉及机器学习技术领域,公开了一种样本数据的筛选方法、装置、计算机设备及存储介质。方法包括:获取多个第一文本数据,将第一文本数据输入至待训练模型,得到第一语义编码和第一概率分布;根据当前语料库与第一语义编码,对第一文本数据进行匹配,得到语义相近的多个第二文本数据,并确定得到多个第二标注数据;根据第一概率分布与多个第二标注数据,计算第一文本数据与多个第二文本数据之间的概率差异,得到第一文本数据的价值分;根据第一文本数据的价值分,对第一文本数据进行处理,得到样本数据。通过利用概率差异进行筛选,更加高效、便捷地获取有利于训练待训练模型的样本数据。
技术关键词
文本 筛选方法 样本 计算机设备 语义 机器学习技术 处理器 可读存储介质 数据获取模块 编码器 筛选装置 匹配模块 分析模块 分类器 存储器 注意力
系统为您推荐了相关专利信息
1
基于分支覆盖的自动化软件测试平台
软件测试平台 覆盖准则 分支 测试用例管理 分析模块
2
一种基于消费者感官评价的烟盒设计优化方法
设计优化方法 决策树模型 感官 烟盒 数据一致性检查
3
用于养殖场的环境感知系统及方法
活动特征 环境感知系统 动物 老鼠 地貌特征
4
一种基于三维探地雷达的道路隐蔽病害识别、定位及分割方法
三维探地雷达 二维灰度图像 分割方法 坐标点 高斯滤波方法
5
基于声誉机制的联邦学习方法、装置、存储介质及设备
客户端 联邦学习方法 中心服务器 联邦学习系统 模型更新
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号