一种基于智能计算中心算力的数据集版本管理方法及装置

AITNT
正文
推荐专利
一种基于智能计算中心算力的数据集版本管理方法及装置
申请号:CN202510058821
申请日期:2025-01-14
公开号:CN119988351A
公开日期:2025-05-13
类型:发明专利
摘要
本发明提供一种基于智能计算中心算力的数据集版本管理方法及装置,包括:在数据库中创建数据集表格,获取训练数据集,将其分成多个分块,并保存为多个parquet文件且存入对象存储服务中,并将其所在路径保存至file字段,并创建数据集版本管理表格以记录训练数据集的当前版本号;对训练数据集中的数据进行修改,得到修改后的训练数据集,并重新分成多个分块后,保存为多个新的parquet文件存入对象存储服务中,确定其所在路径,使用所在路径更新数据集表格中的file字段;执行提交操作,以在数据集版本管理表格中增加新的版本号的记录。由此,可以增加智能计算中心的数据集版本管理能力,以便在大模型训练的场景中灵活调用所需的数据集,有效支持大模型的训练。
技术关键词
对象存储服务 版本管理方法 计算中心 数据 表格 分块 版本管理装置 字段 多模态 处理器 可读存储介质 大语言模型 训练集 计算机程序产品 指令 列表 存储器 电子设备 模块
系统为您推荐了相关专利信息
1
保温层下管道腐蚀红外热成像全维度监测方法
保温层 管道表面温度 监测方法 时序特征 长短期记忆网络
2
计算牙齿数字建模局部坐标系的方法、程序、存储介质、系统和装置
坐标系 模板 牙列间隙 计算机执行指令 ICP算法
3
一种搬运机器人多尺寸适应运输结构及搬运机器人
搬运机器人 圆柱形物品 搬运机构 转轴轴套 U形连接件
4
基于Tensor Core的对角稀疏矩阵-向量乘积求解方法
矩阵 格式 计算机程序指令 GCN模型 节点特征
5
基于家园共育的幼儿健康状态综合评估管理方法及系统
评估管理方法 调控策略 幼儿 环境健康 健康状态数据
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号