一种大模型数据集构建方法、装置、电子设备及存储介质

AITNT
正文
推荐专利
一种大模型数据集构建方法、装置、电子设备及存储介质
申请号:CN202511022758
申请日期:2025-07-24
公开号:CN120974178A
公开日期:2025-11-18
类型:发明专利
摘要
本申请实施例公开了一种大模型数据集构建方法、装置、电子设备及存储介质,属于大模型技术领域,包括:获取用于大模型训练的文本数据集,对文本数据集进行预处理得到多个长文本,对长文本进行拆分处理和向量化处理,得到拆分文本和对应的文本向量,通过局部敏感哈希算法,将满足预设相似条件的文本向量映射到同一个哈希桶中,对每个哈希桶中的文本向量进行相似度计算,得到每两个拆分文本之间的相似度值,根据哈希桶中的拆分文本和拆分文本之间的相似度值,构建文本相似图,在文本相似图中基于拆分文本之间的相似度值,选取预设比例的拆分文本作为重要文本,计算重要文本的重要性分数,根据重要性分数确定目标数据集,能够识别出高价值的数据。
技术关键词
文本 数据集构建方法 局部敏感哈希算法 社区发现算法 电子设备 处理器 存储计算机程序 计算机程序产品 格式 存储器 可读存储介质 模块 节点 实体
系统为您推荐了相关专利信息
1
基于数据挖掘算法的产品图片快速加载方法及系统
数据挖掘算法 图片 多模态 列表 文本
2
智能体评估方法、装置、设备、存储介质及程序产品
计算机程序产品 行业特征 可读存储介质 人工智能技术 评估装置
3
遥感图像目标识别模型训练方法、装置、设备及存储介质
识别模型训练方法 更新模型参数 解码器 遥感图像数据 识别头
4
一种摄像头控制方法、装置、设备及介质
手势区域 摄像头控制方法 图像 手势控制 摄像头旋转角度
5
一种基于野外观测数据率定适宜度指数的方法、电子设备及存储介质
指数 计算机可读取存储介质 生物 变量 频率
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号