基于外推技术的长上下文大模型创建方法

AITNT
正文
推荐专利
基于外推技术的长上下文大模型创建方法
申请号:CN202410755433
申请日期:2024-06-12
公开号:CN118585627A
公开日期:2024-09-03
类型:发明专利
摘要
本发明公开了一种基于外推技术的长上下文大模型创建方法,所述方法包括:步骤1、预训练具有较短上下文窗口的基座大模型;步骤2、位置插值,扩展上下文长度;步骤3、采用位移稀疏注意力减少计算量;步骤4、LoRA+微调大模型获得长上下文理解能力;步骤5、评估大模型能力。该方法提高了模型在长上下文场景下的理解和生成能力,使其在需要处理大量上下文信息的任务中表现更加出色、高效,极大地降低了成本和处理速度,并且回答的准确率也大大提高。
技术关键词
模型创建方法 外推技术 基座 预训练模型 插值方法 编码 矩阵 注意力机制 网络架构 序列 索引 文本 非线性 定义 关系 主题 模块 策略 指标
系统为您推荐了相关专利信息
1
一种模拟飞行试验支撑装置
基座 弧形轨道 航天器模型 支杆 支撑部件
2
一种宠物机器人的情感关怀交流装置
宠物机器人 机体 红外线发射器 压力传感器 信号收发器
3
基于可操纵性优化的轮足人形机器人作业控制方法及系统
机械臂关节 作业控制方法 人形机器人 机器人动力学模型 模型预测控制器
4
一种基于路径跟踪的行人重识别方法
重识别方法 图像 行人重识别 视频 预训练模型
5
一种场景特征提取模型构建方法、系统及存储介质
特征提取模型 学生 场景 教师 蒸馏
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号