一种向量化模型的文本数据集生成方法及装置

AITNT
正文
推荐专利
一种向量化模型的文本数据集生成方法及装置
申请号:CN202410932949
申请日期:2024-07-12
公开号:CN118468044B
公开日期:2024-09-24
类型:发明专利
摘要
本发明提供一种向量化模型的文本数据集生成方法及装置,属于人工智能技术领域;所述方法包括:对指定领域下的文本文档进行文本分割处理,得到多个文本段落;针对每个目标文本段落,计算目标文本段落与每个其他文本段落的相关度;基于相关度和预设相关度阈值,从其他文本段落中确定目标文本段落对应的正例集和负例集;对所述多个正例段落进行关键词提取处理,得到关键词集合;结合关键词集合和目标文本段落,生成目标文本段落对应的目标查询文本;组合每个目标文本段落对应的目标查询文本、正例集以及负例集,以在指定领域中生成向量化模型的文本数据集,从而实现快速生成指定领域下,向量化模型的高质量文本数据集。
技术关键词
文本段落 参数 生成方法 组合关键词 数据 人工智能技术 序列 模块 生成装置 频率 分词
系统为您推荐了相关专利信息
1
一种基于GNSS-R的海冰密集度反演模型训练方法及装置
海冰密集度 反演模型 数据 冰面 滑动时间窗口
2
一种六足巡检机器人自动避障控制系统及方法
避障控制系统 决策系统 巡检机器人 激光雷达点云数据 电机驱动单元
3
一种基于时间窗口聚合的日志模式识别方法及系统
日志 模式识别方法 模式识别系统 元素 文本
4
基于高分辨率光学卫星图像的边坡稳定性预测方法及系统
数据处理模块 预测系统 逻辑控制模块 因子 边坡稳定性分析
5
一种SF1-BAGAN图像数据类别平衡增强方法与图像分类方法
轻量卷积神经网络 图像分类方法 注意力 重建原始数据 残差结构
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号