摘要
本发明公开了一种基于外推技术的长上下文大模型创建方法,所述方法包括:步骤1、预训练具有较短上下文窗口的基座大模型;步骤2、位置插值,扩展上下文长度;步骤3、采用位移稀疏注意力减少计算量;步骤4、LoRA+微调大模型获得长上下文理解能力;步骤5、评估大模型能力。该方法提高了模型在长上下文场景下的理解和生成能力,使其在需要处理大量上下文信息的任务中表现更加出色、高效,极大地降低了成本和处理速度,并且回答的准确率也大大提高。
技术关键词
模型创建方法
外推技术
基座
预训练模型
插值方法
编码
矩阵
注意力机制
网络架构
序列
索引
文本
非线性
定义
关系
主题
模块
策略
指标
系统为您推荐了相关专利信息
宠物机器人
机体
红外线发射器
压力传感器
信号收发器
机械臂关节
作业控制方法
人形机器人
机器人动力学模型
模型预测控制器