摘要
本发明公开了一种扩展大语言模型上下文窗口大小的方法,所述方法为通过分治增量搜索算法寻找旋转位置编码的最优缩放因子以扩展大语言模型的上下文窗口大小。本发明方案相较于人为指定缩放因子的方法不仅有更好的性能,更是降低了微调所需的资源,允许模型在短文本上微调,泛化到目标长文本上,大大节约成本。同时解决了目前大多数方法在短文本微调泛化到长文本上存在的问题,即目标长度性能损失严重。
技术关键词
大语言模型
因子
搜索算法
序列
文本
策略
编码
资源
系统为您推荐了相关专利信息
运动伪影校正方法
运动场
深度学习模型
序列
运动向量数据
音频
车辆控制指令
服务器设备
识别语音信息
座舱
回答生成方法
大语言模型
计算机程序产品
标识
统一资源定位
电机转速控制方法
PID控制器
误差
电机转速控制装置
算法