摘要
本申请公开了一种基于目标数据对齐的文本数据筛选方法。收集多条目标数据组成目标数据集。分别利用待筛选数据集、目标数据集作为训练数据,训练出待筛选数据语言特征提取模型、目标数据语言特征提取模型。采用两个模型对每条待筛选数据计算困惑度增益。采用嵌入式编码模型对每条待筛选数据和每条目标数据进行嵌入式编码,然后对每条待筛选数据都与所有的目标数据计算余弦相似度,取其中的最大值作为余弦相似度指标。根据每条待筛选数据的数据困惑度和余弦相似度指标,计算该条待筛选数据的最终得分;对所有待筛选数据的最终得分进行排序,挑选最终得分较高的待筛选数据作为筛选结果。本申请能提高筛选准确性,提高所选数据质量。
技术关键词
数据筛选方法
特征提取模型
文本
机器学习模型
指标
编码
模型训练模块
数据筛选系统
数据采集模块
序列
词嵌入模型
语义
预训练模型
系统为您推荐了相关专利信息
系统级芯片
脚本生成方法
文本
验证系统
功能模块
数据标注系统
人机协同
AI服务器
模块
数据标注方法
轻量化设计方法
架桥机主梁
灰狼优化算法
权重机制
策略更新
互动系统
显示控制模块
数据分析模块
语音识别单元
资料