一种基于目标数据对齐的文本数据筛选方法及系统

AITNT
正文
推荐专利
一种基于目标数据对齐的文本数据筛选方法及系统
申请号:CN202410815657
申请日期:2024-06-24
公开号:CN118861194A
公开日期:2024-10-29
类型:发明专利
摘要
本申请公开了一种基于目标数据对齐的文本数据筛选方法。收集多条目标数据组成目标数据集。分别利用待筛选数据集、目标数据集作为训练数据,训练出待筛选数据语言特征提取模型、目标数据语言特征提取模型。采用两个模型对每条待筛选数据计算困惑度增益。采用嵌入式编码模型对每条待筛选数据和每条目标数据进行嵌入式编码,然后对每条待筛选数据都与所有的目标数据计算余弦相似度,取其中的最大值作为余弦相似度指标。根据每条待筛选数据的数据困惑度和余弦相似度指标,计算该条待筛选数据的最终得分;对所有待筛选数据的最终得分进行排序,挑选最终得分较高的待筛选数据作为筛选结果。本申请能提高筛选准确性,提高所选数据质量。
技术关键词
数据筛选方法 特征提取模型 文本 机器学习模型 指标 编码 模型训练模块 数据筛选系统 数据采集模块 序列 词嵌入模型 语义 预训练模型
系统为您推荐了相关专利信息
1
用于验证系统级芯片的跨复位域的脚本生成方法和装置
系统级芯片 脚本生成方法 文本 验证系统 功能模块
2
一种基于心理健康监测、预警的分析方法及装置
指标 因子 分析方法 参数 量表
3
一种基于AI协同的数据标注方法及系统
数据标注系统 人机协同 AI服务器 模块 数据标注方法
4
一种架桥机主梁轻量化设计方法
轻量化设计方法 架桥机主梁 灰狼优化算法 权重机制 策略更新
5
一种基于增强现实的法律宣传用互动系统及储存介质
互动系统 显示控制模块 数据分析模块 语音识别单元 资料
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号