摘要
本发明涉及大型语言模型技术领域,公开了一种基于强化学习微调的大型语言模型优化方法,包括:采集目标模型交互得到的优势值,以大小为T×B的优势矩阵;依据预设窗口对优势矩阵从时间维度进行分割处理,形成m个分片;依据m个分片分别确定优势矩阵的源分布,以及构建代价矩阵;基于源分布和代价矩阵,确定大小为m×m的传输矩阵;基于传输矩阵确定第p个分片的净能量搬运量;根据第p个分片的净能量搬运量、优势矩阵和预设窗口,对优势矩阵进行更新处理,得到更新优势矩阵;基于更新优势矩阵计算损失值,以损失值执行反向传播,更新目标模型。
技术关键词
语言模型优化方法
矩阵
分片
元素
变量
总量
语言模型技术
指数
策略
参数
系统为您推荐了相关专利信息
多模态数据融合
在线补偿方法
红外热像仪
可见光图像
惯导坐标系
知识库构建方法
大语言模型
问答类网站
文本关键词提取
道路交通法规