摘要
本申请属于自然语言处理领域,涉及一种基于差异对比的数据筛选方法及其相关设备,该方法包括:将待筛选业务文本数据输入预先训练好的语义理解模型中得到筛选概率分布,按照与待筛选业务文本数据相似度得分从大到小从预设语料文本数据库中获取N个候选业务文本数据,并获取其候选概率分布,根据筛选概率分布和候选概率分布计算每个待筛选业务文本数据的价值分数,按照价值分数从高至低对业务文本数据进行排序,将排序靠前的预设数量个待筛选业务文本数据作为目标文本数据。本申请还涉及区块链技术,业务文本数据和相关模型存储于区块链中。本申请能稳定有效地筛选出语义理解模型训练所需要的目标数据,提高语义理解模型优化的效率。
技术关键词
文本
语义理解模型
数据筛选方法
计算机可读指令
数据筛选装置
可读存储介质
模块
区块链技术
训练集
自然语言
处理器
计算机设备
存储器
编码器
意图
字符
标签