摘要
本发明提供一种基于图神经网络的大语言模型结构优化方法、系统、设备及介质,涉及大语言模型结构优化技术领域,包括:获取参数和结构已知的大语言模型作为训练模型,将训练模型的参数和结构信息转换为图结构数据;基于图结构数据构建图神经网络模型;使用训练模型的图结构数据训练图神经网络模型;将待优化大语言模型的参数和结构信息转换为图结构数据后输入训练好的图神经网络,输出待优化大语言模型每个节点的最终特征表示向量;根据图神经网络模型的输出优化待优化大语言模型的结构。本发明可有效精简模型结构、降低计算资源消耗、提升训练效率、增强模型性能与泛化能力,提高了模型可理解性及鲁棒性,便于后续扩展维护。
技术关键词
模型结构优化方法
大语言模型
神经网络模型
节点特征
结构优化系统
结构优化技术
启发式搜索算法
参数
数据转换模块
分布式训练
模型训练模块
贪心算法
处理器
矩阵
传播算法
介质
邻居
存储器