摘要
本申请实施例公开了一种大模型数据集构建方法、装置、电子设备及存储介质,属于大模型技术领域,包括:获取用于大模型训练的文本数据集,对文本数据集进行预处理得到多个长文本,对长文本进行拆分处理和向量化处理,得到拆分文本和对应的文本向量,通过局部敏感哈希算法,将满足预设相似条件的文本向量映射到同一个哈希桶中,对每个哈希桶中的文本向量进行相似度计算,得到每两个拆分文本之间的相似度值,根据哈希桶中的拆分文本和拆分文本之间的相似度值,构建文本相似图,在文本相似图中基于拆分文本之间的相似度值,选取预设比例的拆分文本作为重要文本,计算重要文本的重要性分数,根据重要性分数确定目标数据集,能够识别出高价值的数据。
技术关键词
文本
数据集构建方法
局部敏感哈希算法
社区发现算法
电子设备
处理器
存储计算机程序
计算机程序产品
格式
存储器
可读存储介质
模块
节点
实体
系统为您推荐了相关专利信息
计算机程序产品
行业特征
可读存储介质
人工智能技术
评估装置
识别模型训练方法
更新模型参数
解码器
遥感图像数据
识别头
手势区域
摄像头控制方法
图像
手势控制
摄像头旋转角度