基于长记忆语义模式驱动的大模型训练与推理方法

AITNT
正文
推荐专利
基于长记忆语义模式驱动的大模型训练与推理方法
申请号:CN202411619450
申请日期:2024-11-13
公开号:CN119578544A
公开日期:2025-03-07
类型:发明专利
摘要
本发明公开一种基于长记忆语义模式驱动的大模型训练与推理方法,包括:采集多个渠道的长文本数据,并进行结构化格式存储及类别标注;初始化模型参数;开始进行多批次训练;在数据输入及各隐藏层中添加噪声;模型对输入数据进行前向传播;根据实际标签与预测结果计算损失,以及利用偏置校正机制进行一阶和二阶矩估计来更新模型的参数;动态调整学习率和正则化系数;利用训练完成的模型进行推理。本发明提高了模型对长距离依赖关系的捕捉能力,在面对复杂和多变的输入时表现更佳,提高了训练效率,并减少了过拟合的风险,能够有效控制模型权重的稀疏性和分散程度,从而进一步提高模型的泛化能力。
技术关键词
推理方法 语义 记忆 噪声强度 矩阵 校正机制 模式 多头注意力机制 词嵌入技术 参数 正则化方法 动态 数据 文本 标签 渠道 控制权
系统为您推荐了相关专利信息
1
视频分割方法、装置、电子设备
短视频 视频分割方法 语义 分割装置 电子设备
2
一种基于医学知识图谱的临床检验结果分析方法
医学知识图谱 临床检验数据 关键词 分析方法 文本
3
一种沙棘汁灌装生产线动态称重与视觉检测系统
视觉检测系统 沙棘汁 灌装生产线 动态称重 标记
4
一种基于深度强化学习的主题感知节点识别方法
节点识别方法 深度强化学习 主题 深度Q网络 多头注意力机制
5
一种基于全局语义增强的车道线检测网络系统及方法
检测网络系统 全局特征提取 矩形 模块 广义
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号