一种基于镜像周期延拓的大模型长文本外推方法及系统

AITNT
正文
推荐专利
一种基于镜像周期延拓的大模型长文本外推方法及系统
申请号:CN202510563059
申请日期:2025-04-30
公开号:CN120338119A
公开日期:2025-07-18
类型:发明专利
摘要
本发明涉及一种基于镜像周期延拓的大模型长文本外推方法及系统,属于模型处理技术领域。步骤包括:(1)ROPE位置编码策略改造;使用PEPE‑mPSE策略更新原有的ROPE位置编码策略;(2)对Transformer架构模型使用长文本数据进行微调训练;(3)通过训练后的Transformer架构模型进行长文本推理。本发明采取一种非内插型的大模型长文本外推方法,通过将模型在预训练文本长度窗口内已学习的位置编码分布进行镜像周期延拓,扩展到模型预训练文本长度之外,大幅度提升模型的长文本外推效果,并且相比于主流外推方法,本发明方法在理论层面更加具备实现无限外推的可能。
技术关键词
外推方法 文本 编码策略 周期 策略更新 模型预训练 分布式训练 数据 序列 镜像对称 超参数 索引 频率 轴对称 代表 阶段
系统为您推荐了相关专利信息
1
用于分布式能源的端边一体化管理平台
一体化管理平台 需求预测模型 历史气象数据 能源调度管理 序列
2
基于VR技术的生产人员智能培训方法及系统、电子设备
智能培训方法 头戴式VR设备 控制模块 视频 图像
3
基于深度学习的颅内动脉瘤影像检测系统及方法
病历 影像检测系统 分解特征 交互特征 文本
4
基于数字孪生的超长柔性叶片颤振控制方法及设备
风电机组 数字孪生模型 颤振控制方法 历史运行数据 柔性
5
交直流信号检测方法、电子设备及存储介质
信号检测方法 电压 幅值 电源变换电路 电子设备
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号