一种大模型数据集构建方法、装置、电子设备及存储介质

正文

推荐专利

申请号：CN202511022758

申请日期：2025-07-24

公开号：CN120974178A

公开日期：2025-11-18

类型：发明专利

摘要

本申请实施例公开了一种大模型数据集构建方法、装置、电子设备及存储介质，属于大模型技术领域，包括：获取用于大模型训练的文本数据集，对文本数据集进行预处理得到多个长文本，对长文本进行拆分处理和向量化处理，得到拆分文本和对应的文本向量，通过局部敏感哈希算法，将满足预设相似条件的文本向量映射到同一个哈希桶中，对每个哈希桶中的文本向量进行相似度计算，得到每两个拆分文本之间的相似度值，根据哈希桶中的拆分文本和拆分文本之间的相似度值，构建文本相似图，在文本相似图中基于拆分文本之间的相似度值，选取预设比例的拆分文本作为重要文本，计算重要文本的重要性分数，根据重要性分数确定目标数据集，能够识别出高价值的数据。

技术关键词

文本数据集构建方法局部敏感哈希算法社区发现算法电子设备处理器存储计算机程序计算机程序产品格式存储器可读存储介质模块节点实体

系统为您推荐了相关专利信息

基于数据挖掘算法的产品图片快速加载方法及系统

数据挖掘算法图片多模态列表文本

智能体评估方法、装置、设备、存储介质及程序产品

计算机程序产品行业特征可读存储介质人工智能技术评估装置

遥感图像目标识别模型训练方法、装置、设备及存储介质

识别模型训练方法更新模型参数解码器遥感图像数据识别头

一种摄像头控制方法、装置、设备及介质

手势区域摄像头控制方法图像手势控制摄像头旋转角度

一种基于野外观测数据率定适宜度指数的方法、电子设备及存储介质

指数计算机可读取存储介质生物变量频率

一种大模型数据集构建方法、装置、电子设备及存储介质

站点导航

APP 下载