基于长记忆语义模式驱动的大模型训练与推理方法

正文

推荐专利

申请号：CN202411619450

申请日期：2024-11-13

公开号：CN119578544A

公开日期：2025-03-07

类型：发明专利

摘要

本发明公开一种基于长记忆语义模式驱动的大模型训练与推理方法，包括：采集多个渠道的长文本数据，并进行结构化格式存储及类别标注；初始化模型参数；开始进行多批次训练；在数据输入及各隐藏层中添加噪声；模型对输入数据进行前向传播；根据实际标签与预测结果计算损失，以及利用偏置校正机制进行一阶和二阶矩估计来更新模型的参数；动态调整学习率和正则化系数；利用训练完成的模型进行推理。本发明提高了模型对长距离依赖关系的捕捉能力，在面对复杂和多变的输入时表现更佳，提高了训练效率，并减少了过拟合的风险，能够有效控制模型权重的稀疏性和分散程度，从而进一步提高模型的泛化能力。

技术关键词

推理方法语义记忆噪声强度矩阵校正机制模式多头注意力机制词嵌入技术参数正则化方法动态数据文本标签渠道控制权

系统为您推荐了相关专利信息

视频分割方法、装置、电子设备

短视频视频分割方法语义分割装置电子设备

一种基于医学知识图谱的临床检验结果分析方法

医学知识图谱临床检验数据关键词分析方法文本

一种沙棘汁灌装生产线动态称重与视觉检测系统

视觉检测系统沙棘汁灌装生产线动态称重标记

一种基于深度强化学习的主题感知节点识别方法

节点识别方法深度强化学习主题深度Q网络多头注意力机制

一种基于全局语义增强的车道线检测网络系统及方法

检测网络系统全局特征提取矩形模块广义

基于长记忆语义模式驱动的大模型训练与推理方法

站点导航

APP 下载