一种向量化模型的文本数据集生成方法及装置

正文

推荐专利

申请号：CN202410932949

申请日期：2024-07-12

公开号：CN118468044B

公开日期：2024-09-24

类型：发明专利

摘要

本发明提供一种向量化模型的文本数据集生成方法及装置，属于人工智能技术领域；所述方法包括：对指定领域下的文本文档进行文本分割处理，得到多个文本段落；针对每个目标文本段落，计算目标文本段落与每个其他文本段落的相关度；基于相关度和预设相关度阈值，从其他文本段落中确定目标文本段落对应的正例集和负例集；对所述多个正例段落进行关键词提取处理，得到关键词集合；结合关键词集合和目标文本段落，生成目标文本段落对应的目标查询文本；组合每个目标文本段落对应的目标查询文本、正例集以及负例集，以在指定领域中生成向量化模型的文本数据集，从而实现快速生成指定领域下，向量化模型的高质量文本数据集。

技术关键词

文本段落参数生成方法组合关键词数据人工智能技术序列模块生成装置频率分词

系统为您推荐了相关专利信息

一种基于GNSS-R的海冰密集度反演模型训练方法及装置

海冰密集度反演模型数据冰面滑动时间窗口

一种六足巡检机器人自动避障控制系统及方法

避障控制系统决策系统巡检机器人激光雷达点云数据电机驱动单元

一种基于时间窗口聚合的日志模式识别方法及系统

日志模式识别方法模式识别系统元素文本

基于高分辨率光学卫星图像的边坡稳定性预测方法及系统

数据处理模块预测系统逻辑控制模块因子边坡稳定性分析

一种SF1-BAGAN图像数据类别平衡增强方法与图像分类方法

轻量卷积神经网络图像分类方法注意力重建原始数据残差结构

一种向量化模型的文本数据集生成方法及装置

站点导航

APP 下载