摘要
本申请涉及人工智能及深度学习技术领域,提出了一种基于LoRA的注意力对齐微调方法、装置、设备及介质,该方法包括:获取已训练的初始预训练模型;冻结所述初始预训练模型的参数,并在所述预训练模型的每层设置LoRA模型,得到中间预训练模型;在所述中间预训练模型上加入注意力机制,得到最终预训练模型,其中,所述注意力机制的参数可训练;获取第一数据集,并使用所述第一数据集对所述最终预训练模型进行微调,得到微调后的目标模型。通过本申请的技术方案,加快卷积神经网络的微调速度,不增加推理时的计算量,微调时训练参数少,占用GPU内存少,训练速度加快。
技术关键词
预训练模型
注意力机制
微调方法
矩阵
计算机可执行指令
数据
参数
深度学习技术
微调装置
通道
处理器通信
计算机设备
代表
可读存储介质
模块
存储器
分块
系统为您推荐了相关专利信息
故障诊断模型
镗床
诊断方法
通道注意力机制
训练神经网络模型
因子
降水预测方法
奇异值分解方法
经验正交函数
线性回归方法
多头注意力机制
疾病
异构网络构建
网络结构信息
节点特征
早期诊断模型构建方法
动态拉曼光谱
直肠癌
腺嘌呤
时序特征
焊点缺陷检测方法
轮廓模型
区域生长算法
图像
曲率特征