摘要
本发明提供一种基于智能计算中心算力的数据集版本管理方法及装置,包括:在数据库中创建数据集表格,获取训练数据集,将其分成多个分块,并保存为多个parquet文件且存入对象存储服务中,并将其所在路径保存至file字段,并创建数据集版本管理表格以记录训练数据集的当前版本号;对训练数据集中的数据进行修改,得到修改后的训练数据集,并重新分成多个分块后,保存为多个新的parquet文件存入对象存储服务中,确定其所在路径,使用所在路径更新数据集表格中的file字段;执行提交操作,以在数据集版本管理表格中增加新的版本号的记录。由此,可以增加智能计算中心的数据集版本管理能力,以便在大模型训练的场景中灵活调用所需的数据集,有效支持大模型的训练。
技术关键词
对象存储服务
版本管理方法
计算中心
数据
表格
分块
版本管理装置
字段
多模态
处理器
可读存储介质
大语言模型
训练集
计算机程序产品
指令
列表
存储器
电子设备
模块
系统为您推荐了相关专利信息
保温层
管道表面温度
监测方法
时序特征
长短期记忆网络
坐标系
模板
牙列间隙
计算机执行指令
ICP算法
搬运机器人
圆柱形物品
搬运机构
转轴轴套
U形连接件
评估管理方法
调控策略
幼儿
环境健康
健康状态数据