一种基于目标数据对齐的文本数据筛选方法及系统

正文

推荐专利

申请号：CN202410815657

申请日期：2024-06-24

公开号：CN118861194A

公开日期：2024-10-29

类型：发明专利

摘要

本申请公开了一种基于目标数据对齐的文本数据筛选方法。收集多条目标数据组成目标数据集。分别利用待筛选数据集、目标数据集作为训练数据，训练出待筛选数据语言特征提取模型、目标数据语言特征提取模型。采用两个模型对每条待筛选数据计算困惑度增益。采用嵌入式编码模型对每条待筛选数据和每条目标数据进行嵌入式编码，然后对每条待筛选数据都与所有的目标数据计算余弦相似度，取其中的最大值作为余弦相似度指标。根据每条待筛选数据的数据困惑度和余弦相似度指标，计算该条待筛选数据的最终得分；对所有待筛选数据的最终得分进行排序，挑选最终得分较高的待筛选数据作为筛选结果。本申请能提高筛选准确性，提高所选数据质量。

技术关键词

数据筛选方法特征提取模型文本机器学习模型指标编码模型训练模块数据筛选系统数据采集模块序列词嵌入模型语义预训练模型

系统为您推荐了相关专利信息

用于验证系统级芯片的跨复位域的脚本生成方法和装置

系统级芯片脚本生成方法文本验证系统功能模块

一种基于心理健康监测、预警的分析方法及装置

指标因子分析方法参数量表

一种基于AI协同的数据标注方法及系统

数据标注系统人机协同 AI服务器模块数据标注方法

一种架桥机主梁轻量化设计方法

轻量化设计方法架桥机主梁灰狼优化算法权重机制策略更新

一种基于增强现实的法律宣传用互动系统及储存介质

互动系统显示控制模块数据分析模块语音识别单元资料

一种基于目标数据对齐的文本数据筛选方法及系统

站点导航

APP 下载