摘要
本发明提供一种向量化模型的文本数据集生成方法及装置,属于人工智能技术领域;所述方法包括:对指定领域下的文本文档进行文本分割处理,得到多个文本段落;针对每个目标文本段落,计算目标文本段落与每个其他文本段落的相关度;基于相关度和预设相关度阈值,从其他文本段落中确定目标文本段落对应的正例集和负例集;对所述多个正例段落进行关键词提取处理,得到关键词集合;结合关键词集合和目标文本段落,生成目标文本段落对应的目标查询文本;组合每个目标文本段落对应的目标查询文本、正例集以及负例集,以在指定领域中生成向量化模型的文本数据集,从而实现快速生成指定领域下,向量化模型的高质量文本数据集。
技术关键词
文本段落
参数
生成方法
组合关键词
数据
人工智能技术
序列
模块
生成装置
频率
分词
系统为您推荐了相关专利信息
避障控制系统
决策系统
巡检机器人
激光雷达点云数据
电机驱动单元
数据处理模块
预测系统
逻辑控制模块
因子
边坡稳定性分析
轻量卷积神经网络
图像分类方法
注意力
重建原始数据
残差结构