摘要
本发明涉及一种基于镜像周期延拓的大模型长文本外推方法及系统,属于模型处理技术领域。步骤包括:(1)ROPE位置编码策略改造;使用PEPE‑mPSE策略更新原有的ROPE位置编码策略;(2)对Transformer架构模型使用长文本数据进行微调训练;(3)通过训练后的Transformer架构模型进行长文本推理。本发明采取一种非内插型的大模型长文本外推方法,通过将模型在预训练文本长度窗口内已学习的位置编码分布进行镜像周期延拓,扩展到模型预训练文本长度之外,大幅度提升模型的长文本外推效果,并且相比于主流外推方法,本发明方法在理论层面更加具备实现无限外推的可能。
技术关键词
外推方法
文本
编码策略
周期
策略更新
模型预训练
分布式训练
数据
序列
镜像对称
超参数
索引
频率
轴对称
代表
阶段
系统为您推荐了相关专利信息
一体化管理平台
需求预测模型
历史气象数据
能源调度管理
序列
智能培训方法
头戴式VR设备
控制模块
视频
图像
风电机组
数字孪生模型
颤振控制方法
历史运行数据
柔性