一种基于差异对比的数据筛选方法及其相关设备

正文

推荐专利

申请号：CN202411672921

申请日期：2024-11-21

公开号：CN119691144A

公开日期：2025-03-25

类型：发明专利

摘要

本申请属于自然语言处理领域，涉及一种基于差异对比的数据筛选方法及其相关设备，该方法包括：将待筛选业务文本数据输入预先训练好的语义理解模型中得到筛选概率分布，按照与待筛选业务文本数据相似度得分从大到小从预设语料文本数据库中获取N个候选业务文本数据，并获取其候选概率分布，根据筛选概率分布和候选概率分布计算每个待筛选业务文本数据的价值分数，按照价值分数从高至低对业务文本数据进行排序，将排序靠前的预设数量个待筛选业务文本数据作为目标文本数据。本申请还涉及区块链技术，业务文本数据和相关模型存储于区块链中。本申请能稳定有效地筛选出语义理解模型训练所需要的目标数据，提高语义理解模型优化的效率。

技术关键词

文本语义理解模型数据筛选方法计算机可读指令数据筛选装置可读存储介质模块区块链技术训练集自然语言处理器计算机设备存储器编码器意图字符标签

一种基于差异对比的数据筛选方法及其相关设备

站点导航

APP 下载