摘要
本发明公开了一种用于训练专业领域大模型的数据集构建方法及系统,该方法包括采集多源异构数据,通过动态时序张量分解方法对数据进行融合与预处理,生成标准化三维数据张量;采用层次化图结构处理方法对数据进行重组和优化,生成优化特征矩阵、特征重要度向量和数据可靠度矩阵;采用概率矩阵分解方法对数据进行增强和知识融合,生成增强数据集;采用多面体投影方法对数据进行验证和动态优化,生成最终训练数据集。本发明提升了专业领域数据的质量,解决了数据时序关联性分析不足、质量评估不准确、增强策略固定、验证约束不足等技术问题。
技术关键词
数据集构建方法
节点
样本
时序
分布统计模型
路径分析模型
张量分解方法
关系
重构
局部结构特征
矩阵分解方法
专业
冗余度
参数
数据集构建系统
计算误差度量
路径特征
演化特征